Keywords: 多模态;大语言模型;分类体系;性能;训练策略;综述
Abstract: 在过去的一年里,多模态大语言模型(Multimodal Large Language Models, MM-LLMs)取得了显著进展,通过经济高效的训练策略,增强了现成的LLMs对多模态输入或输出的支持。这些模型不仅保留了LLMs固有的推理和决策能力,还增强了对各种多模态任务的处理能力。本文提供了一份全面的调查,旨在促进多模态大型语言模型的进一步研究。首先,我们概述了模型架构和训练流程的一般设计原理。随后,我们引入了一个包含126个多模态大型语言模型的分类体系,每个模型都有其特定的公式。此外,我们还回顾了部分多模态大型语言模型在主流基准测试上的表现,并总结了提高多模态大型语言模型效能的关键训练策略。最后,我们探讨了多模态大型语言模型有前景的发展方向。我们希望这份调查能为多模态大型语言模型领域的持续发展做出贡献。
Submission Number: 23
Loading