科学家揭示模型内部的信息流动层级，用于提升多模态AI系统透明性

“本次研究是在多模态大模型信息流动机制探索方面的开创性工作之一，首次系统性地分析了信息在跨模态交互中的流动路径。”对于荷兰阿姆斯特丹大学博士生张智和所在团队的新论文，审稿人给出上述评价。

图 | 张智（来源：张智）

张智表示，他发现当多模态大模型在做多模态任务的时候，模型从低层到高层分别做了以下工作。

第一步，模型将整个图像的全局视觉信息传播到语言对应的表示中。第二步，模型将与回答问题相关的特定视觉信息进一步传播到语言表示中。第三步，模型将整合后的多模态信息在问题的表示中流向输入序列的最后一个位置，以帮助生成最终预测。

值得注意的是，模型最初生成的答案是小写形式，然后将首字母转换为大写。这表明，模型的语义处理（内容理解）和语法处理（格式调整）是分开进行的。

在本次研究之中，张智采用了经过验证的可解释性工具（注意力消融），确保了方法的可靠性，并避免了对工具本身有效性的重复验证。这一研究不仅加深了对多模态大模型内部信息处理方式的理解，也为未来改进模型结构和优化跨模态信息融合提供了理论指导。

他表示，本次研究旨在揭露多模态大模型的内部工作机制，并在以下几个潜在的方向有应用前景：

首先，在模型运行效率方面，本次研究揭示了视觉-语言信息融合的关键阶段，可用于优化模型架构、减少冗余计算、提高推理速度，特别是在视觉问答（VQA，Visual Question Answering）、图像字幕生成等任务上提升性能。

其次，在模型编辑（Model Editing）方面，该成果提供了针对不同模态信息在不同层中作用的深刻理解，有助于开发更精准的多模态信息干预方法，使得模型在特定任务或场景下具备更强的适应性，比如在医疗影像分析、自动驾驶和智能监控等领域优化决策机制。

再次，在可解释性方面，该研究揭示了模型内部信息流动的层级结构，可用于提升多模态 AI 系统的透明性，为学术界和工业界开发更可控、更可信赖的 AI 模型提供理论支持，特别是在需要严格审核的领域比如法律、金融和医疗 AI 领域，能够确保 AI 决策过程的可追溯性和公平性。

（来源：arXiv）

近年来，多模态大模型在视觉-语言任务（如视觉问答、图像字幕生成等）中表现出了强大的能力。这些模型通常结合了当前流行的大模型和视觉编码器（Vision Encoder），使其能够同时处理图像和文本。

然而，尽管多模态大模型在实际任务中取得了显著进展，人们对其内部工作机制仍然缺乏深入理解，尤其是视觉信息和语言信息在模型内部是如何交互和融合的。

因此，本研究的目标是揭示多模态大模型在执行多模态任务的时候模型内部的工作机制是什么样的？尤其是不同模态（视觉和语言）之间的信息流动过程以及融合交互过程是怎样的？

基于此，本次课题的主要研究问题包括：

视觉信息与语言信息如何融合？模型如何将整体图像信息于语言信息融合？模型如何将问题相关的视觉信息与语言信息融合？模型的不同层（layer）中如何处理不同模态信息？视觉和语言信息在模型的不同层中如何传播？低层、中层和高层的功能如何分工？视觉和语言信息如何影响最终预测？语言和视觉信息在最终预测答案时的贡献是什么？预测的答案在模型内部是如何生成的？

然而，现实很快给研究团队带来了挑战。多模态大模型是“牵一发动全身”的高度复杂系统，想要从底层细粒度地解析所有细节，不仅计算量巨大，分析难度也极高。为此，研究团队走了不少弯路，尝试了各种复杂的实验设计，但由于变量太多，得到的结果往往过于零散，难以形成完整的理论框架。

后来，在对大量实验数据进行深入分析后，研究团队意识到，需要回归最基础的问题——多模态信息流动的核心机制。于是，研究团队从一堆复杂的实验结果中，提炼出了多模态大模型最根本的核心问题：不同模态之间的信息流如何交互、如何融合？这一视角的转变，让研究工作变得更加清晰和有方向感，也让他们不再纠结过于细节的微观过程，而是专注于理解多模态大模型处理多模态信息的整体框架。这一策略最终帮助研究团队揭示了视觉-语言信息融合的两阶段机制，并建立了模型内部信息流动的解释框架。

研究中，有的发现是意想不到或者偶然发现的。比如：答案生成采取的是两阶段机制。最初，研究团队主要关注视觉信息和语言信息在网络中如何整合以及如何传播，但有一天在分析模型生成答案的过程中，张智无意中发现答案在中层就已经基本确定，而高层的作用似乎只是“修饰”答案比如将答案的首字母大写。这个发现让研究团队感到非常惊讶，因为大家一直以为整个模型的计算都是均匀推动答案预测的，但事实上它是分阶段进行的。这让张智意识到，研究团队不仅在研究模型的计算方式，更是在研究它的“思考方式”。

最终，相关论文以《跨模态信息在多模态大型语言模型中的流动》（Cross-modal Information Flow in Multimodal Large Language Models）为题发在arXiv[1]。