Towards zero-shot human-object interaction detection via vision-language integration

Weiying Xue, Qi Liu, Yuxiao Wang, Zhenao Wei, Xiaofen Xing, Xiangmin Xu

Published: 2025, Last Modified: 09 Apr 2026Neural Networks 2025EveryoneRevisionsBibTeXCC BY-SA 4.0

Abstract: Highlights•Our KI2HOI effectively utilizes VLM’s visual–linguistic knowledge and achieves superior zero-shot transferability.•We develop visual and linguistic level strategies to fuse spatial information and semantic information.•SOTA results on HICO-DET/V-COCO in zero-shot and supervised settings via extensive experiments.