LIVE 预告 | 华为诺亚韩凯:Transformer in Transformer-程序员宅基地

技术标签: 机器学习  计算机视觉  深度学习  人工智能  图像识别  

近期,华为诺亚方舟实验室的研究者提出了一种新型视觉Transformer网络架构,Transformer in Transformer,性能表现优于谷歌的 ViT 和 Facebook 的DeiT。该网络中的TNT模块,通过内外两个Transformer 联合提取图像局部和全局的特征。

Transformer in Transformer 架构

具体而言,新提出的 TNT block 使用一个外 Transformer block 来对 patch 之间的关系进行建模,用一个内 Transformer block 来对像素之间的关系进行建模。通过 TNT 结构,研究者既保留了 patch 层面的信息提取,又做到了像素层面的信息提取,从而能够显著提升模型对局部结构的建模能力,提升模型的识别效果。该网络在ImageNet 图像识别任务上,Top-1正确率达到81.3%。

智源社区特邀请论文《Transformer in Transformer》一作华为诺亚方舟实验室高级研究员韩凯就其研究过程及内容做报告分享,欢迎大家参与交流讨论。

报告主题:Transformer in Transformer

报告时间:2021年3月8日(周一)晚上8:00~9:00

报告形式:线上(Zoom + 智源社区Hub + B站直播)

 

讲者介绍:韩凯,华为诺亚方舟实验室高级研究员。北京大学硕士,浙江大学学士。主要研究方向为深度学习和计算机视觉,已在CCF-A类会议发表论文十余篇,担任NeurIPS/ICML/ICLR/AAAI/IJCAI/TCSVT等会议和期刊审稿人。

 

报告摘要:

Transformer 网络推动了诸多自然语言处理任务的进步,而近期 transformer 开始在计算机视觉领域崭露头角,比如ViT和DETR等。本次报告介绍一种新型视觉 Transformer 网络架构 Transformer in Transformer,它的表现优于谷歌的 ViT 和 Facebook 的 DeiT。论文提出了一个全新的 TNT 模块(Transformer iN Transformer),旨在通过内外两个 transformer 联合提取图像局部和全局特征。通过堆叠 TNT 模块,研究者搭建了全新的纯 Transformer 网络架构——TNT。值得注意的是,TNT 还暗合了 Geoffrey Hinton 最新提出的 part-whole hierarchies 思想。在 ImageNet 图像识别任务上,TNT 在相似计算量情况下的 Top-1 正确率达到 81.3%,高于 DeiT 的 79.8% 和 ViT 的 77.9%。

论文链接:https://arxiv.org/abs/2103.00112

代码链接:https://github.com/huawei-noah/noah-research/tree/ master/TNT

 

观看方式:

智源社区Hub直播:(点击【阅读原文】或扫描下方二维码)

(社区报名,可收到短信定时提醒)

Zoom 观看:https://zoom.com.cn/j/61801320784(无密码)

 

B站直播:https://live.bilibili.com/21484823

欢迎加入智源研究组

(加入研究组,共同讨论最新进展)

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/BAAIBeijing/article/details/114529387

智能推荐

Android 实现ListView滚动到底部自动加载数据_安卓 listview 触底加载-程序员宅基地

文章浏览阅读2.1k次。大概说下原理,1.利用ListView的foo_安卓 listview 触底加载

盗梦空间:在X86平台上构建ARM模拟器-程序员宅基地

文章浏览阅读4k次,点赞2次,收藏2次。需求来源于如何构建arm平台的Ubuntu文件系统。我们希望在ARM开发板上使用Ubuntu系统,那么就需要构建一个Ubuntu的根文件系统,基于该基础文件系统,进一步扩展开发。当然,也可能大部分的需求更多是来源于如何在host系统上构建arm环境,编译arm程序。殊途同归,问题都归结为一点,即如何在host系统上构建arm模拟环境。从上述构建文件系统需求出发,搜索到的资料无一例外的提到了chroot命令和qemu-arm-static安装包。具体思路是,安装qemu-arm-static安_arm模拟器

Linux内核分析 - 网络:网桥原理分析_在一个接口上发出的包不会再在那个接口上发送这个报-程序员宅基地

文章浏览阅读814次。网桥数据包的处理流程 网桥处理包遵循以下几条原则: 1. 在一个接口上接收的包不会再在那个接口上发送这个数据包; 2. 每个接收到的数据包都要学习其源地址; 3. 如果数据包是多播或广播包,则要在同一个网段中除了接收端口外的其他所有端口发送这个数据包,如果上层协议栈对多播包感兴趣,则需要把数据包提交给上层协议栈; 4._在一个接口上发出的包不会再在那个接口上发送这个报

Vue.js简单实现Todolist综合案例 (一) 选择完成或未完成 双击修改文本内容_vue 双击修改li内容-程序员宅基地

文章浏览阅读2.8k次,点赞4次,收藏7次。**Todolist综合案例(一)Todolist Vue.js基本实现方法我们先明白todolist这个案例的基本实现方法循环遍历方法跟跟套用事件方法 比如 v-for v-if 这些常用的方法todolist案例实用各种项目 基本样式也不会太大变化 说白了就是在俄罗斯套娃我也是刚刚入门的新手首先我们先基本引入Vue.js的环境cnpm install -g @vue/cli然后在创建Vue的基本项目vue create myapp然后直接cd 进去项目myapp启动就行 c_vue 双击修改li内容

Git解决fatal: unable to connect to github.com_fatal: unable to connect to git.newcapec.cn: git.n-程序员宅基地

文章浏览阅读1.6w次,点赞11次,收藏10次。git clone git://github.com/lajos/iFrameExtractor.git错误信息:bower error status code of git: 128fatal: unable to connect to github.com:github.com[0: 你的IP]: errno=Operation timed out原因:需要用https才能读到数..._fatal: unable to connect to git.newcapec.cn: git.newcapec.cn[0: 192.168.0.19

全网最强HTTP+Fiddler抓包实战教程 干得不能再干 (超级全面图文)_http抓包-程序员宅基地

文章浏览阅读1.5w次,点赞48次,收藏187次。居然有人干了5年开发,居然抓包都不会!但是不要怕,不要哭,跟着我学一定有收获! 兴趣就是你最好的老师,有兴趣就一定要学下去 ,卷死他们!_http抓包

随便推点

Aeron是什么?-程序员宅基地

文章浏览阅读1k次。Aeron是一个开源高性能消息传输机制(单向),支持高效可靠的UDP单播、UDP多播和IPC消息传输。1. 架构Aeron 主要由三部分组成:Media Driver、Publications 和 Subscriptions1.1 Media DriverMedia Driver 负责管理 publications 和 subscriptions 所使用的用来发送和接收数据的 Media(UDP或IPC)。各组件作用: Driver Conductor Driver Condu

深度学习框架的比较(MXNet, Caffe, TensorFlow, Torch, Theano)_mxnet、 caffe、tensorflow-程序员宅基地

文章浏览阅读183次。1. 基本概念1.1 MXNet相关概念 深度学习目标:如何方便的表述神经网络,以及如何快速训练得到模型 CNN(卷积层):表达空间相关性(学表示) RNN/LSTM:表达时间连续性(建模时序信号) 命令式编程(imperative programming):嵌入的较浅,其中每个语句都按原来的意思执行,如numpy和Torch就是属于这种 ..._mxnet、 caffe、tensorflow

IOB寄存器的使用:IOB= TRUE 属性_iob=true-程序员宅基地

文章浏览阅读1.2w次,点赞5次,收藏44次。IOB寄存器跟通信有关的设计中多会用到,今天查了相关资料,总结如下:首先了解一下fpga的芯片内部结构:一个fpga主要是由可编程输入输出单元(图中的IOB模块),可编程逻辑单元(CLB模块),块RAM(图中的BRAM,也属于内嵌硬件),数字时钟管理(DCM,也属于内嵌硬件),还有一些内嵌的专用的硬件模块(DSP),IOB寄存器就在图中的IOB模块中。IOB 的内部结构如下:IOB_iob=true

说好的响应式呢?移动端适配方案探究:Rem vs Em vs vw/vh_移动端rem和em的区别-程序员宅基地

文章浏览阅读651次,点赞14次,收藏20次。Em单位是相对于其父元素的字体大小来定义的。如果没有设置父元素的字体大小,默认是16px。1em等于父元素的字体大小,2em就是父元素字体大小的两倍。听起来似乎很简单,但嵌套使用时会使事情变得复杂,因为em是相对于当前元素的父元素来计算的,层层嵌套下去,计算起来就像是在玩俄罗斯套娃。_移动端rem和em的区别

无线网络边缘“遇上”分布式机器学习讲座:Machine Learning at the Wireless Edge-程序员宅基地

文章浏览阅读364次。概述无线网络边缘端的分布式学习的一些成果,包括两个主题:联邦学习和去中心化学习_machine learning at the wireless edge

2021-01-28Mac配置VSCode的flutter开发环境(ios模拟机)_vscode 怎么使用ios模拟器-程序员宅基地

文章浏览阅读3k次,点赞2次,收藏6次。Mac版配置VSCode的flutter开发环境(ios模拟机)下载flutter的SDK下载sdk并解压下载地址:https://github.com/flutter/flutter/releases把压缩包解压到自定义的目录 cd ~/Software unzip ~/Software/flutter-1.22.6.zip配置环境变量在~/.bash_profile文件添加以下环境变量 # flutter image export FLUTTER_HOME=/U_vscode 怎么使用ios模拟器

推荐文章

热门文章

相关标签