Single image and video generation using a receptive diffusion model with convolutional spatiotemporal blocks

Yingli Hou, Wei Zhang, Zhiliang Zhu, Hai Yu

Published: 2025, Last Modified: 31 Jul 2025Appl. Soft Comput. 2025EveryoneRevisionsBibTeXCC BY-SA 4.0

Abstract: Highlights•Union unifies diffusion for image/video training, avoids GAN errors and artifacts.•Receptive DDPM with ConvNext CS-Blocks capture local+global links in image/video.•Union offers diverse video generation, extrapolation, plus real-video editing.•Union leads in compute and quality, top LPIPS on Places50, beating baselines.

External IDs:dblp:journals/asc/HouZZY25