Modeling visual and word-conditional semantic attention for image captioning

Chunlei Wu, Yiwei Wei, Xiaoliang Chu, Fei Su, Leiquan Wang

Published: 2018, Last Modified: 05 Jan 2026Signal Process. Image Commun. 2018EveryoneRevisionsBibTeXCC BY-SA 4.0

Abstract: Highlights •A new dual temporal model is proposed for image captioning.•Word-conditional semantic attention is proposed for functional-words•generation.•A self-balancing model is exploited to balance the visual and semantic attention.