Multimodal Pre-training Method for Vision-language Understanding and Generation. | OpenReview

Multimodal Pre-training Method for Vision-language Understanding and Generation.

Tianyi Liu, Zuxuan Wu, Jingjing Chen 0001, Yu-Gang Jiang 0001

15 Jan 2026Int. J. Softw. Informatics 2023EveryoneCC BY-SA 4.0

Loading