当前位置: 首页 > news >正文

东阿聊城做网站的公司360推广

东阿聊城做网站的公司,360推广,郑州专做喜宴的网站,成都系统开发GroupViT: Semantic Segmentation Emerges from Text Supervision 一、思想 把Transformer层分为多个组阶段grouping stages,每个stage通过自注意力机制学习一组tokens,然后使用学习到的组tokens通过分组模块Grouping Block融合相似的图片tokens。通过这…

GroupViT: Semantic Segmentation Emerges from Text Supervision

一、思想

把Transformer层分为多个组阶段grouping stages,每个stage通过自注意力机制学习一组tokens,然后使用学习到的组tokens通过分组模块Grouping Block融合相似的图片tokens。通过这种组级联,可以把图片中小分割块组成大块。

二、模型

图片分成不重叠的N个块,每个块经过线性映射变成 image token,除了 image tokens ,每个grouping stage同时concat一组可学习的group tokens,image token和group tokens都输入Transformer层。

Grouping Block的作用是把小块组合成大块,每个阶段都有该模块。

不是把所有的image token前向传播到所有Transformer层。

每个阶段经过GroupingBlock后得到的tokens数量越来越少,因为分割的区域越来越大,分割的数量越来越少。最后一层后,所有分割tokens经过Transformer层,输出平均池化,得到图片表示z。

然后用了一个hard assignment技巧,使得可微分,将每个分割token分配给一个组。然后同一组的所有token融合得到一个新的分割token:

双编码器结构,GroupViT是图片编码器,Transformer是文本编码器,最终GroupViT输出的图片向量是所有输出的分割token的平均向量。

三、损失函数

Image-Text Contrastive Loss:

Multi-Label Image-Text Contrastive Loss:

从GT文本中随机选出K个名词,然后用模版填充:“A photo of a {noun}”.

原始的文本图片对:

the new sets of image-“prompted text” pairs:

Zero-Shot Transfer to Semantic Segmentation

四、实验

部分细节:

ViT-S+12 Transformer layers+hidden dimension of 384

input images of size 224 × 224+patch size of 16 × 16

experiment with 1-stage and 2-stage architectures for GroupViT:

        1-stage:

        64 group tokens and insert the grouping block after the sixth Transformer layer;Before the grouping block, we project the 64 group tokens into 8 tokens using an MLP-Mixer layer [76] and output 8 segment tokens.

        2-stage:

        there are 64 and 8 group tokens in the first and second grouping stages, respectively. We insert grouping blocks after the sixth and ninth Transformer layers. We use a 2-layer MLP to project the visual and text embedding vectors into the same latent space.

Our batch size is 4096 with a learning rate initialized to 0.0016 and decayed via the cosine schedule. We use the Adam optimizer with a weight decay of 0.05. We train GroupVIT for 30 epochs with the 5 initial epochs containing linear warm-up. For the multi-label contrastive loss, we set K = 3. 

结果:

http://www.ds6.com.cn/news/101065.html

相关文章:

  • wordpress http.php合肥seo优化公司
  • 工艺宣传网站建设网络营销策划方案800字
  • 建站塔山双喜杭州seo搜索引擎优化
  • 商家做网站的优点超级软文网
  • 长沙网站建设搜狐综合小时报2022113011
  • 合肥网上商城网站建设挖掘关键词爱站网
  • 手机网站开发软件下载关键词优化排名平台
  • 新手小白如何互联网创业杭州seo搜索引擎优化
  • 泰州cms建站模板网站建设公司推荐
  • 电子政务平台官网广州网站排名专业乐云seo
  • 广西响应式网站制作北京seo站内优化
  • 俄罗斯代购网站设计东莞市民最新疫情
  • 苏州做网站的公司常见的网络直接营销有哪些
  • 域名对网站seo的影响吗广东东莞最新疫情
  • 哪个网站可以做教师招聘题目网店营销策划方案
  • 在线做任务的网站管理微信软件
  • 苏州门户网站建设优化搜索点击次数的方法
  • vs做网站创建项目时选哪个黄山网站建设
  • 网站建设岗位计算机培训班
  • 有没有必要给企业做网站qq代刷网站推广
  • 增城门户网站沈阳网站制作优化推广
  • 松江区做网站注册公司流程和费用
  • 企业网站建设公司 丰台百度推广代理公司
  • word怎么做网站链接营销技巧美剧
  • seo网站推广经理招聘百度发布信息怎么弄
  • 网站开发毕业设计任务书如何快速推广一个app
  • wordpress改变url天津seo推广优化
  • 网站用自己的电脑做服务器吗百度广告联盟下载
  • 沈阳网站关键词优化多少钱seo3的空间构型
  • 观澜网站建设公司如何联系百度人工客服电话