AVA-AVD: Audio-Visual Speaker Diarization in the Wild [2111.14448]