Mask^2DiT: Dual Mask-based Diffusion Transformer for Multi-Scene Long Video Generation. | OpenReview

Mask^2DiT: Dual Mask-based Diffusion Transformer for Multi-Scene Long Video Generation.

Tianhao Qi, Jianlong Yuan, Wanquan Feng, Shancheng Fang, Jiawei Liu 0001, SiYu Zhou 0002, Qian He, Hongtao Xie, Yongdong Zhang 0001

15 Jan 2026CVPR 2025EveryoneCC BY-SA 4.0

Loading