当前位置：首页 > news >正文

做网站一定要注册域名吗怎么推广销售

news 2025/8/4 15:43:40

做网站一定要注册域名吗,怎么推广销售,保定网站设计概述,什么行业最需要网站建设Generalized Decoding for Pixel, Image, and Language Towards a Generalized Multi-Modal Foundation Model 1、概述 X-Decoder没有为视觉和VL任务开发统一的接口，而是建立了一个通用的解码范式，该范式可以通过采用共同的（例如语义&#…

Generalized Decoding for Pixel, Image, and Language

Towards a Generalized Multi-Modal Foundation Model

1、概述

X-Decoder没有为视觉和VL任务开发统一的接口，而是建立了一个通用的解码范式，该范式可以通过采用共同的（例如语义）但尊重自然差异（例如空间掩码与序列语言）来无缝连接任务，从而全面显著改进不同的分割和VL工作。

输入：两个查询，(i) generic non-semantic queries that aim to decode segmentation masks for universal segmentation，(ii) newly introduced textual queries to make the decoder language-aware for a diverse set of language-related vision tasks

输出：两种类型，像素级别和token级别。

2、X-Decoder

2.1 Formulation

图片：经过image encoder 得到特征，文本T经过text encoder 编码为，长度为n，非语义查询或者潜在查询，输入X-Decoder输出：

分别是像素级别masks和token级别语义.

在许多以前的统一编码器-解码器模型中，图像和文本在编码器侧融合。这种设计不仅使全局图像-文本对比学习难以解决，而且使生成预训练也难以解决。相反，通过完全解耦图像和文本编码器，并将输出全部用作查询，X-Decoder可以从图像内监督和图像间监督中学习，这对于学习更强的像素级表示和支持不同粒度的任务至关重要。

2.2 Unification of Tasks

Generic Segmentation：

Referring Segmentation：，与一般分割类似，只使用与潜在查询相对应的前m个解码输出。

Image-Text Retrieval：，

Image Captioning and VQA：，这两个任务有两个不同：Captioning遵循因果掩mask策略，而VQA则不遵循。其次，使用Os中的所有输出作为字幕，但仅使用最后一个输出来预测VQA的答案。

之前的一系列工作探索了序列解码接口进行统一。然而，在这项工作中，我们提倡通过功能而不是接口来实现统一，即我们最大限度地共享不同任务的共同部分，同时保持单个任务的其余部分不变。

2.3 Unified Architecture

，不同level的特征

在每一层：先和视觉特征做交叉注意力，然后潜在查询和文本查询做自注意力：

其中，对第一个公式，所有查询和视觉特征做交叉注意力，对于潜在查询，使用masked cross-attention mechanism，对文本查询使用全部注意力。

对第二个公式，（i）我们使用最后一个潜在查询来提取全局图像表示，剩余的用于一般分割；（ii）对于图像Caption，每个文本查询可以和其自身、前面的文字、所有潜在查询做自注意力；（iii）对于参考分割，潜在查询与所有文本查询做注意力。

对，m个潜在查询输出mask，对于语义输出，为潜在查询和文本查询预测输出，

2.4 End-to-End Pre-training

两种类型的损失函数：Semantic Loss，Mask Loss

1）Semantic Loss：

三个任务对应三个损失函数：

对image-text retrieval，计算语言图片相对损失。最后一个有效的token feature 代表文本，记作，用潜在特征的表示全局图片的特征表示图片，记作，对minibatch B获得B对特征对：，然后计算点乘得到，然后计算双向交叉熵：

y是class labels。

对于mask classification，包括“background”在内C个类别编码为C个文本查询，提取每个查询最后一个有效特征作为概念表示，然后取对应前（m-1）个潜在查询的decoder输出，计算这些输出和概念表示的点乘，得到，最后计算交叉熵损失：。

对于image captioning，提取所有词汇向量，大小为V，X-Decoder最后n个语义输出，计算点乘得到，和GT的写一个token的id 计算交叉熵。

2）Mask Loss

用Hungarian matching找到和前(m − 1)个输出匹配的GT，使用BCE和DICE计算损失。

3 实验

100 latent queries and 9 decoder layers for segmentation, and we add one additional latent query for image-level task。

Focal-T and DaViT-B/L as the vision encoder

http://www.ds6.com.cn/news/82631.html

相关文章：

左侧导航网站互联网营销师报名入口官网

室内设计师第一网站seo查询源码

网站个人备案材料国内手机搜索引擎十大排行

html5模板免费下载贵州百度seo整站优化

澳门响应式网站建设自助建站系统个人网站

软件外包怎么样搜索引擎优化的目的是对用户友好

给女朋友做网站的素材seo目标关键词优化

公司名称大全集最新三个字长沙网站seo

做推广的网站带宽需要多少钱上海关键词优化方法

什么是企业网站源码怎样免费给自己的公司做网站

南通做网站百度免费发布信息网站

广州php网站建设公司运营策划营销

wordpress音乐插件mp3青岛seo外包服务

滨州制作网站百度平台客服

如何登录百度站长平台做竞价托管的公司

vps网站压缩百度推广优化排名

百度收录个人网站是什么怎么做互联网营销的优势

asp.net网站开发四酷全书重庆关键词优化服务

做网站的高手新手怎么做网络销售

商业空间设计调研报告盐城seo营销

有哪些做共享充电宝的网站北京推广优化公司

建一个网站是不是要开公司林哥seo

一个网站能放多少关键词最近的国际新闻

手风琴网站模板百度识图查图片

magento建站教程百度账号查询

个人可以做哪些有意思的网站河南网站seo费用

海搜网做的网站怎么样搜索引擎分析论文

十堰做网站排名网站建设推广优化

东莞seo排名优化seo整站优化哪家好

网站设计布局网站推广优化之八大方法