Controlled Gradient Optimization for Harmful Video Detection

Controlled Gradient Optimization for Harmful Video Detection

ACL ARR 2026 January Submission5400 Authors

05 Jan 2026 (modified: 20 Mar 2026)ACL ARR 2026 January SubmissionEveryoneRevisionsBibTeXCC BY 4.0

Keywords: Multimodal Learning; Harmful Video Detection; Controlled Gradient Optimization; Modality Imbalance

Abstract: Harmful video detection exhibits a fundamental asymmetry. The underlying intent is often subtle and highly context dependent, whereas spurious cues such as emotionally charged audio or visual effects are salient and easy to exploit. As a result, standard multimodal models tend to overfit dominant but unreliable modalities, allowing them to dominate optimization and degrade generalization. We propose Controlled Gradient Optimization (CGO), a task-aware training framework that explicitly regulates cross-modal gradient interactions to enforce semantic consistency. CGO mitigates reliance on isolated, non-generalizable features through three complementary mechanisms. First, it enforces directional alignment of gradients to promote coherent cross-modal learning. Second, it suppresses unreliable updates using perturbation-aware reweighting to reduce the influence of uncertain signals. Third, it harmonizes convergence dynamics across modalities to prevent optimization imbalance. Extensive experiments on three real-world benchmarks show that CGO consistently achieves state-of-the-art performance. Furthermore, it demonstrates strong robustness under modality missingness and distribution shifts, establishing a stable and reliable training paradigm for safety-critical harmful video detection.

Paper Type: Long

Research Area: Multimodality and Language Grounding to Vision, Robotics and Beyond

Research Area Keywords: Multimodal Learning, Multimodal Classification, Harmful Content Detection, Robustness

Contribution Types: NLP engineering experiment

Languages Studied: English, Chinese

Submission Number: 5400

Loading