当前位置: 首页 > news >正文

京东建站模板推广方式

京东建站模板,推广方式,整套网页模板,个人网站的色彩设计怎么做Generalized Decoding for Pixel, Image, and Language Towards a Generalized Multi-Modal Foundation Model 1、概述 X-Decoder没有为视觉和VL任务开发统一的接口#xff0c;而是建立了一个通用的解码范式#xff0c;该范式可以通过采用共同的#xff08;例如语义#…Generalized Decoding for Pixel, Image, and Language Towards a Generalized Multi-Modal Foundation Model 1、概述 X-Decoder没有为视觉和VL任务开发统一的接口而是建立了一个通用的解码范式该范式可以通过采用共同的例如语义但尊重自然差异例如空间掩码与序列语言来无缝连接任务从而全面显著改进不同的分割和VL工作。 输入两个查询(i) generic non-semantic queries that aim to decode segmentation masks for universal segmentation(ii) newly introduced textual queries to make the decoder language-aware for a diverse set of language-related vision tasks 输出两种类型像素级别和token级别。 2、X-Decoder 2.1 Formulation 图片经过image encoder 得到特征文本T经过text encoder 编码为长度为n非语义查询或者潜在查询输入X-Decoder输出 分别是像素级别masks和token级别语义. 在许多以前的统一编码器-解码器模型中图像和文本在编码器侧融合。这种设计不仅使全局图像-文本对比学习难以解决而且使生成预训练也难以解决。相反通过完全解耦图像和文本编码器并将输出全部用作查询X-Decoder可以从图像内监督和图像间监督中学习这对于学习更强的像素级表示和支持不同粒度的任务至关重要。 2.2 Unification of Tasks Generic Segmentation Referring Segmentation与一般分割类似只使用与潜在查询相对应的前m个解码输出。 Image-Text Retrieval Image Captioning and VQA这两个任务有两个不同Captioning遵循因果掩mask策略而VQA则不遵循。其次使用Os中的所有输出作为字幕但仅使用最后一个输出来预测VQA的答案。 之前的一系列工作探索了序列解码接口进行统一。然而在这项工作中我们提倡通过功能而不是接口来实现统一即我们最大限度地共享不同任务的共同部分同时保持单个任务的其余部分不变。 2.3 Unified Architecture 不同level的特征 在每一层先和视觉特征做交叉注意力然后潜在查询和文本查询做自注意力 其中对第一个公式所有查询和视觉特征做交叉注意力对于潜在查询使用masked cross-attention mechanism对文本查询使用全部注意力。 对第二个公式i 我们使用最后一个潜在查询来提取全局图像表示剩余的用于一般分割ii对于图像Caption每个文本查询可以和其自身、前面的文字、所有潜在查询做自注意力iii对于参考分割潜在查询与所有文本查询做注意力。 对m个潜在查询输出mask对于语义输出为潜在查询和文本查询预测输出 2.4  End-to-End Pre-training 两种类型的损失函数Semantic LossMask Loss 1Semantic Loss 三个任务对应三个损失函数 对image-text retrieval计算语言图片相对损失。最后一个有效的token feature 代表文本记作用潜在特征的表示全局图片的特征表示图片记作对minibatch  B获得B对特征对然后计算点乘得到然后计算双向交叉熵 y是class labels。 对于mask classification包括“background”在内C个类别编码为C个文本查询提取每个查询最后一个有效特征作为概念表示然后取对应前m-1个潜在查询的decoder输出计算这些输出和概念表示的点乘得到最后计算交叉熵损失。 对于image captioning提取所有词汇向量大小为VX-Decoder最后n个语义输出计算点乘得到和GT的写一个token的id  计算交叉熵。 2Mask Loss 用Hungarian matching找到和前(m − 1)个输出匹配的GT使用BCE和DICE计算损失。 3  实验 100 latent queries and 9 decoder layers for segmentation, and we add one additional latent query for image-level task。 Focal-T and DaViT-B/L  as the vision encoder
http://www.eeditor.cn/news/123527/

相关文章:

  • 营销网站特点招商加盟类网站模板
  • 南京手机网站制作公司企业网查询官网入口
  • 手机免费个人网站建站国家林业工程建设协会网站
  • 5个免费安全的资源网站泊头哪给做网站的好
  • 如何自建一个便宜的网站做网站多少钱?
  • 网站开发软件 d营销型网站建设的注意事项
  • 梅林 建站 wordpress汕头网络推广平台
  • 网站建设收费标准html网页制作的软件下载
  • 问问建设网站的人南阳东莞网站建设公司
  • 网站左侧固定广告代码外国做视频在线观看网站
  • 电商购物网站做问卷的网站好
  • 网站被主流搜索引擎收录的网页数量是多少建设外卖网站需要哪些资质
  • 添加qq好友的超链接做网站wordpress购买资源插件
  • php网站培训班全球50个大网站开发语言
  • 东莞松山湖东华医院网站建设优化推广教程
  • 设计师培训招生视频宁阳网站seo推广
  • 教学网站虚拟主机和网站空间
  • 网站建设正规代理商企业网络营销策划平台
  • app和微网站的区别是什么福州制作网站软件
  • 网站建设公司排名深圳中国建设银行app官方下载
  • 做科技汽车的视频网站有哪些网站建设源代码文件
  • 德州网站优化公司做网站爱
  • 做vip视频网站赚钱吗有没有网站开发软件
  • 潮州网站seo趣味阁小程序入口
  • 网站开发设计费用浏览器查看WordPress主题
  • 网站建设 6万元oppo自带软件商店下载
  • 好的活动策划网站湖州市南浔区建设局网站
  • 网站专题页面怎么做wordpress绝对路径图片不显示
  • 网站美工设计流程企业网站建设套餐费用
  • 揭阳网站制作计划江苏省城乡和住房建设厅网站首页