C2/AV-TSE: Context and Confidence-aware Audio Visual Target Speaker Extraction. | OpenReview

C2/AV-TSE: Context and Confidence-aware Audio Visual Target Speaker Extraction.

Wenxuan Wu, Xueyuan Chen, Shuai Wang 0016, Jiadong Wang, Lingwei Meng, Xixin Wu, Helen Meng, Haizhou Li 0001

13 Nov 2025CoRR 2025EveryoneCC BY-SA 4.0

Loading