当前位置: 首页 > news >正文

深圳海外医疗网站建设张家港电脑网站制作

深圳海外医疗网站建设,张家港电脑网站制作,全总基层组织建设网站,企业wordpress模板免费提示#xff1a;文章写完后#xff0c;目录可以自动生成#xff0c;如何生成可参考右边的帮助文档 文章目录 前言一、摘要二、引言三、模型方法1、模型思路2、融合公式 四、训练方法总结 前言 2023年5月18日清华智谱AI发布并开源VisualGLM-6B以来#xff0c;清华KEG文章写完后目录可以自动生成如何生成可参考右边的帮助文档 文章目录 前言一、摘要二、引言三、模型方法1、模型思路2、融合公式 四、训练方法总结 前言 2023年5月18日清华智谱AI发布并开源VisualGLM-6B以来清华KEG智谱AI潜心打磨又开发并开源了更加强大的多模态大模型CogVLM。CogVLM基于对视觉和语言信息之间融合的理解是一种新的视觉语言基础模型 。CogVLM 可以在不牺牲任何 NLP 任务性能的情况下实现视觉语言特征的深度融合替换以往浅融合模式使用重要的视觉专家模块。为此我在阅读了论文后做出该论文解读内容能帮助更多读者学习。 论文链接:点击这里 代码地址点击这里 网页测试demo:点击这里 个人原文重点翻译:点击这里 一、摘要 我们提出了CogVLM模型一个更强的open-sorce视觉语言基准模型。该模型不同于现有受欢迎大模型是直接使图像特征嵌入语言空间浅对齐的方法。而CogVLM缩小语言模型与图像编码特征融合的gap在这里语言模型是已训练好且冻结的模型图像特征编码是使用了attention and FFN layer构建的可训练视觉专家模块编码图像特征。结果是CogVLM能深度融合视觉语言特征而不牺牲NLP任务新能。 CogVLM在10中 cross-modal基准上实现最先进性能基准包含… 二、引言 VLMS模式是功能强大且应用很广的。很多视觉和多模态任务看做是token的预测如图像说明、视觉问答、视觉定位与分割等任务。作者特别说到之前方法以BLIP-2举列The popular shallow alignment methods represented by BLIP-2是一个浅对齐模型使用Q-FORMER结构速度快但性能不够优秀。引出弱的视觉理解能力导致模型幻觉问题提到CogVLM保持NLP语言模型能力同时添加一个强大视觉理解模型。为此作者提到的模型可以解决这些问题实现深层次融合作者也提到P-tuning与lora方法更多细节作者说了2点 More detailed reasons for the performance degradation of p-tuning and shallow alignment include: 第一点训练好的语言模型权重被冻结。视觉特征嵌入文本空间无法完美匹配在多个transformer后视觉特征无法在更深层匹配。 第二点在预训练期间先前视觉描述(如 writing style and caption length) 通过粗浅的align方法编码为视觉特征在视觉与文本一致性是很差的。 作者继续说现有一种可能方法是联合训练图像-文本PaLi and Qwen-VL模型使用了该方式但损害NLP能力也可能影响以文本为中心的任务如诗词创作和图像背景介绍。PaLM-E文章对VLM模型在预训练期间让语言模型可以训练导致灾难性遗忘对8B语言模型掉电87.3% NLG。 为此CogVLM为语言模型增加了可训练的视觉专家模块。在每一层中图像特征依次都使用各自QKV矩阵MLP嵌入到文本特征。Visual expert在保持FLOPs不变的情况下将参数数量加倍。由于原语言模型中的所有参数都是固定的所以当输入序列不包含图像时其行为与原语言模型相同。 最后作者也说因为先前更多有名VLM模型代码不公开如…,我们希望开源CogVLM更好帮助研究者和工业应用。 三、模型方法 1、模型思路 模型方法有四个部分组成第一个是视觉特征提取只是选择模型不太一样之前大模型一般都是VIT模型第二个是MLP结构没啥可说的第三个是预训练的大语言模型也没啥说的第四个是视觉专家模块我个人觉得这是一个很大变化这个和之前的大模型就不太一样了如图右可看出需要在每层融合而其它大模型只在最后一层融合。 图中描述为:这个就是CogVLM结构a图是说明输入方式图像被预训练的VIT加工嵌入文本特征。b图是transform结构构建在语言模型种每一层融合都有相应不同的QKV矩阵和FFN结构紫色部分是可以训练的其它是冻结的。 注b图都是图像特征嵌入 当然我也将该部分重要内容原文与翻译贴于此。 2、融合公式 融合公式实际就是transform基本结构作者也是先分别对图像特征与语言特征获得Q K V并分别concat后在使用attention公式如下 四、训练方法 作者也给出了训练方法总体来说进行了2次预训练与finetune大体是先做文本部分训练在做跟框相关的训练同时作者也给出框预测的相关设计思路如下原文与部分翻译。 当然我个人比较在意是visual grounding任务方式作者也有涉及如下原文 这里也推荐博客点击这里 总结 本篇论文重点结构是视觉专家模块这个也是作者说的深入融合的方法。
http://www.eeditor.cn/news/126581/

相关文章:

  • 平面设计国外网站手机视频网站设计
  • 网站 被攻击主业篡改 被黑了 织梦做的站英文WordPress站点切换为中文
  • 电子商务网站建设费用预算昌宁网站建设
  • 做外贸哪些网站比较好软件开发工程师级别
  • 网站开发与应用专业天下网商自助建站系统
  • 做旅游网站公司做网站的软件初中生
  • 广州商城网站建设报价塑胶制品 东莞网站建设
  • 模板网站案例互动型网站
  • 网站建设与设计学了做什么的网络认证
  • 佛山seo网站推广2万块建一个网站贵吗
  • 河南省住房建设厅网站互联网建设及服务领域信用建设
  • 化妆品网站静态模板电商网站建设推荐
  • 大连网站排名南京金九建设集团网站
  • 自己做网站制作流程跨境商旅客户ppt
  • 外贸营销网站怎么建站wordpress资料图片不显示
  • 旅社网站怎么建立上海网站搭建平台公司
  • 如何上传程序到网站空间wordpress进不去
  • 随州网站开发你需要网站建设
  • 手机网站如何建站如何创建网站 优帮云
  • 谷歌官网首页廊坊seo关键词优化
  • 网站推广软件哪个最好大型网站建设公司推荐
  • 网站网页设计的组成十大免费ppt网站在线
  • 做视频网站犯法吗网络安全防护
  • 深圳市手机网站建设一般网站维护费用
  • 北京建站免费模板企业网站建设是什么实现的物质基础和技术支撑
  • 网站建设优化怎么做wordpress网页自适应屏幕大小
  • 什么网站找厂做袜子Wordpress手机 菜单
  • php开源公司网站免费建一级域名网站
  • 英文网站模板改成中文中国做外贸的网站有哪些
  • 网站标题的优化在线页面设计工具