ACMMM 2024 Conference Submissions

MiNet: Weakly-Supervised Camouflaged Object Detection through Mutual Interaction between Region and Edge Cues
Yuzhen Niu, Lifen Yang, Rui Xu, Yuezhou Li, Yuzhong Chen
- Published: 20 Jul 2024, Last Modified: 05 Aug 2024
- MM2024 Poster
- Readers: Everyone
Point Cloud Reconstruction Is Insufficient to Learn 3D Representations
Weichen Xu, Jian Cao, Tianhao Fu, Ruilong Ren, Zicong Hu, Xixin Cao, Xing Zhang
- Published: 20 Jul 2024, Last Modified: 21 Jul 2024
- MM2024 Poster
- Readers: Everyone
MM-LDM: Multi-Modal Latent Diffusion Model for Sounding Video Generation
Mingzhen Sun, Weining Wang, Yanyuan Qiao, Jiahui Sun, Zihan Qin, Longteng Guo, Xinxin Zhu, Jing Liu
- Published: 20 Jul 2024, Last Modified: 21 Jul 2024
- MM2024 Poster
- Readers: Everyone
LoFormer: Local Frequency Transformer for Image Deblurring
Xintian Mao, Jiansheng Wang, Xingran Xie, Qingli Li, Yan Wang
- Published: 20 Jul 2024, Last Modified: 21 Jul 2024
- MM2024 Poster
- Readers: Everyone
Explore Hybrid Modeling for Moving Infrared Small Target Detection
Mingjin Zhang, Shilong Liu, Yuanjun Ouyang, Jie Guo, Zhihong Tang, Yunsong Li
- Published: 20 Jul 2024, Last Modified: 21 Jul 2024
- MM2024 Poster
- Readers: Everyone
Multimodal LLM Enhanced Cross-lingual Cross-modal Retrieval
Yabing Wang, Le Wang, Qiang Zhou, zhibin wang, Hao Li, Gang Hua, Wei Tang
- Published: 20 Jul 2024, Last Modified: 21 Jul 2024
- MM2024 Poster
- Readers: Everyone
Selective Vision-Language Subspace Projection for Few-shot CLIP
Xingyu Zhu, Beier Zhu, Yi Tan, Shuo Wang, Yanbin Hao, Hanwang Zhang
- Published: 20 Jul 2024, Last Modified: 21 Jul 2024
- MM2024 Oral
- Readers: Everyone
Prompting to Adapt Foundational Segmentation Models
Jie Hu, Jie Li, Yue Ma, Liujuan Cao, Songan Zhang, Wei Zhang, GUANNAN JIANG, Rongrong Ji
- Published: 20 Jul 2024, Last Modified: 21 Jul 2024
- MM2024 Poster
- Readers: Everyone
MetaEnzyme: Meta Pan-Enzyme Learning for Task-Adaptive Redesign
Jiangbin Zheng, Han Zhang, Qianqing Xu, An-Ping Zeng, Stan Z. Li
- Published: 20 Jul 2024, Last Modified: 21 Jul 2024
- MM2024 Poster
- Readers: Everyone
Multi-modal Denoising Diffusion Pretraining for Whole-Slide Image Classification
Wei Lou, Guanbin Li, Xiang Wan, Haofeng Li
- Published: 20 Jul 2024, Last Modified: 06 Aug 2024
- MM2024 Poster
- Readers: Everyone
ARTS: Semi-Analytical Regressor using Disentangled Skeletal Representations for Human Mesh Recovery from Videos
Tao Tang, Hong Liu, Yingxuan You, Ti Wang, Wenhao Li
- Published: 20 Jul 2024, Last Modified: 02 Aug 2024
- MM2024 Poster
- Readers: Everyone
APP: Adaptive Pose Pooling for 3D Human Pose Estimation from Videos
Jinyan Zhang, Mengyuan Liu, Hong Liu, Guoquan Wang, Wenhao Li
- Published: 20 Jul 2024, Last Modified: 21 Jul 2024
- MM2024 Poster
- Readers: Everyone
CartoonNet: Cartoon Parsing with Semantic Consistency and Structure Correlation
Jian-Jun Qiao, Meng-Yu Duan, Xiao Wu, Yu-Pei Song
- Published: 20 Jul 2024, Last Modified: 06 Aug 2024
- MM2024 Poster
- Readers: Everyone
Breaking Modality Gap in RGBT Tracking: Coupled Knowledge Distillation
Andong Lu, Jiacong Zhao, Chenglong Li, Yun Xiao, Bin Luo
- Published: 20 Jul 2024, Last Modified: 06 Aug 2024
- MM2024 Poster
- Readers: Everyone
Focus, Distinguish, and Prompt: Unleashing CLIP for Efficient and Flexible Scene Text Retrieval
Gangyan Zeng, Yuan Zhang, Jin Wei, Dongbao Yang, peng zhang, Yiwen Gao, Xugong Qin, Yu Zhou
- Published: 20 Jul 2024, Last Modified: 21 Jul 2024
- MM2024 Poster
- Readers: Everyone
JoReS-Diff: Joint Retinex and Semantic Priors in Diffusion Model for Low-light Image Enhancement
Yuhui Wu, Guoqing Wang, Zhiwen Wang, Yang Yang, Tianyu Li, Malu Zhang, Chongyi Li, Heng Tao Shen
- Published: 20 Jul 2024, Last Modified: 21 Jul 2024
- MM2024 Poster
- Readers: Everyone
Bridging Visual Affective Gap: Borrowing Textual Knowledge by Learning from Noisy Image-Text Pairs
Daiqing Wu, Dongbao Yang, Yu Zhou, Can Ma
- Published: 20 Jul 2024, Last Modified: 21 Jul 2024
- MM2024 Oral
- Readers: Everyone
SSL: A Self-similarity Loss for Improving Generative Image Super-resolution
Du Chen, Zhengqiang ZHANG, Jie Liang, Lei Zhang
- Published: 20 Jul 2024, Last Modified: 06 Aug 2024
- MM2024 Poster
- Readers: Everyone
CoIn: A Lightweight and Effective Framework for Story Visualization and Continuation
Ming Tao, Bingkun BAO, Hao Tang, Yaowei Wang, Changsheng Xu
- Published: 20 Jul 2024, Last Modified: 21 Jul 2024
- MM2024 Poster
- Readers: Everyone
SI-BiViT: Binarizing Vision Transformers with Spatial Interaction
Peng Yin, Xiaosu Zhu, Jingkuan Song, Lianli Gao, Heng Tao Shen
- Published: 20 Jul 2024, Last Modified: 21 Jul 2024
- MM2024 Poster
- Readers: Everyone
Video Anomaly Detection via Progressive Learning of Multiple Proxy Tasks
Menghao Zhang, Jingyu Wang, Qi Qi, Pengfei Ren, Haifeng Sun, Zirui Zhuang, Huazheng Wang, Lei Zhang, Jianxin Liao
- Published: 20 Jul 2024, Last Modified: 05 Aug 2024
- MM2024 Poster
- Readers: Everyone
PSSD-Transformer: Powerful Sparse Spike-Driven Transformer for Image Semantic Segmentation
Hongzhi Wang, Xiubo Liang, Tao Zhang, Gu Yue, Weidong Geng
- Published: 20 Jul 2024, Last Modified: 21 Jul 2024
- MM2024 Poster
- Readers: Everyone
Proactive Deepfake Detection via Training-Free Landmark Perceptual Watermarks
Tianyi Wang, Mengxiao Huang, Harry Cheng, Xiao Zhang, Zhiqi Shen
- Published: 20 Jul 2024, Last Modified: 21 Jul 2024
- MM2024 Poster
- Readers: Everyone
Subjective-Aligned Dataset and Metric for Text-to-Video Quality Assessment
Tengchuan Kou, Xiaohong Liu, Zicheng Zhang, Chunyi Li, Haoning Wu, Xiongkuo Min, Guangtao Zhai, Ning Liu
- Published: 20 Jul 2024, Last Modified: 21 Jul 2024
- MM2024 Oral
- Readers: Everyone
CoAst: Validation-Free Contribution Assessment for Federated Learning based on Cross-Round Valuation
Hao Wu, Likun Zhang, Shucheng Li, Fengyuan Xu, Sheng Zhong
- Published: 20 Jul 2024, Last Modified: 21 Jul 2024
- MM2024 Poster
- Readers: Everyone