长春科技网站建设,企业网络组建,wordpress简历,青海微网站建设ControlMLLM: Training-Free Visual Prompt Learning for Multimodal Large Language Models github
paper 在本研究中#xff0c;提出了一种无需进行训练的方法#xff0c;通过可学习的潜变量优化将视觉提示注入到多模态大型语言模型#xff08;MLLMs#xff09;中。
在…ControlMLLM: Training-Free Visual Prompt Learning for Multimodal Large Language Models github
paper 在本研究中提出了一种无需进行训练的方法通过可学习的潜变量优化将视觉提示注入到多模态大型语言模型MLLMs中。
在MLLMs核心模块中注意力连接文本提示标记和视觉标记并最终确定输出结果起着重要作用。
提出的方法涉及在推理过程中调整与视觉标记相关联部分的MLP输出以控制注意力响应并确保文本提示标记关注指定区域内的视觉标记。
通过基于能量函数优化一个可学习的潜变量增强了注意图对指定区域描述和推理任务的能力而无需进行大规模训练或重新训练模型。
因此本文提供了一种有希望将引用能力集成到MLLMs中并支持使用框、蒙版、涂鸦和点等方式进行引用的方法。 动机
要解决的问题
传统MLLMs的局限性 粗粒度图像对齐传统多模态大语言模型MLLMs主要依赖于粗粒度的图像级对齐这限制了用户通过文本提示进行详细区域描述和推理的能力。文本提示的局限性文本提示往往无法捕捉图像中的复杂视觉细节导致模型在理解图像内容时的局限性。现有方法的不足 高训练成本现有的将引用能力集成到MLLMs中的方法通常需要大量的训练数据并且模型需要针对新数据域或新基础MLLMs进行重新训练。缺乏灵活性模型在域迁移时表现不佳缺乏灵活性。
解决问题的策略
提出一种无训练的方法通过可学习的潜在变量优化将视觉提示注入到MLLMs中无需对模型进行训练或微调。利用注意力机制通过调整MLLMs解码器中的注意力图控制文本提示标记关注到视觉标记在指定区域从而增强对指定区域的描述和推理能力。 方法
1. 方法概述
核心思想在推理过程中通过调整MLP输出的视觉标记控制注意力响应确保文本提示标记关注到视觉标记在指定区域。优化目标基于能量函数优化一个可学习的潜在变量增强注意力图中指定区域的强度。
2. 方法步骤
2.1 分析MLLMs中的注意力
注意力图的作用注意力图模型了视觉标记和文本提示标记之间的关系显著影响生成的文本。直接修改注意力图的不可行性直接修改注意力图需要仔细选择调整系数且容易影响LLM的语言能力。
2.2 通过潜在变量学习操纵注意力
引入可学习的潜在变量在视觉标记中增加一个可学习的潜在变量通过优化该变量来间接影响注意力图。能量函数设计设计能量函数来计算输入引用和注意力图之间的关系支持四种引用形状框、掩码、涂鸦和点。上下文标记通过平均池化每个文本提示标记生成的注意力图生成代表全局上下文的上下文标记简化计算并保留关键信息。
2.3 方法流程
视觉编码使用冻结的视觉编码器和后续的MLP将图像编码为视觉标记。文本编码将文本提示编码为文本标记。注意力计算计算视觉标记和文本标记之间的注意力图。潜在变量优化基于能量函数优化可学习的潜在变量增强指定区域的注意力强度。LLM解码使用优化后的视觉标记和文本标记作为输入通过LLM解码器生成输出文本。 总结
本文提出了一种无训练的方法通过优化可学习的潜在变量将视觉提示注入到MLLMs中从而实现对指定区域的详细描述和推理。该方法利用注意力机制通过调整注意力图来增强指定区域的强度无需对模型进行训练或微调具有灵活性和泛化能力。