Vid2Seq: Large-Scale Pretraining of a Visual Language Model for Dense Video Captioning | OpenReview

Vid2Seq: Large-Scale Pretraining of a Visual Language Model for Dense Video Captioning

Antoine Yang, Arsha Nagrani, Paul Hongsuck Seo, Antoine Miech, Jordi Pont-Tuset, Ivan Laptev, Josef Sivic, Cordelia Schmid

2023 (modified: 07 Mar 2023)CoRR 2023Readers: Everyone

0 Replies

Loading