新闻首页 / 标签为“Transformer”的新闻

0

魔改ResNet反超Transformer再掀架构之争!作者说“没一处创新”

梦晨发自凹非寺 量子位公众号 QbitAI 过去一年,Transformer 频频跨界视觉领域,大有抢 CNN 饭碗之势。 先是图像分类上被谷歌 ViT 突破,后来目标检测和图像分割又被微软 Swin Transformer 拿下。 随着投身视觉 Transformer 研究的学者越来越多,三大任务
0

让Transformer的推理速度提高4.5倍,这个trick还能给你省十几万

最近,NLP 明星公司 Hugging Face 发布了一个叫做 Infinity 的产品,可以以 1ms 延时完成 Transformer 的推理,性能相当高了。 但是,厉害归厉害,还是有点贵——1 年至少要十几万块 (2 万美元)。 那有没有什么平替的方法呢? 有的!还是开源的、“不费吹灰之力”
1

解决Transformer固有缺陷:复旦大学等提出线性复杂度SOFT

机器之心报道 机器之心编辑部 来自复旦大学、萨里大学和华为诺亚方舟实验室的研究者首次提出一种无 softmax Transformer。 视觉 Transformer (ViT) 借助 patch-wise 图像标记化和自注意力机制已经在各种视觉识别任务上实现了 SOTA。然而,自注意力模块的使用使
0

颜水成发了个“简单到尴尬”的模型证明Transformer威力源自架构

梦晨发自凹非寺 量子位报道公众号 QbitAI Transformer 做视觉取得巨大成功,各大变体频频刷榜,其中谁是最强? 早期人们认为是其中的注意力机制贡献最大,对注意力模块做了很多改进。 后续研究又发现不用注意力换成Spatial MLP效果也很好,甚至使用傅立叶变换模块也能保留 97% 的性
0

还在纠结CNN还是Transformer?清华发表一篇survey:全连接层才是终极答案!

新智元报道 编辑:LRS 随着神经网络的发展,各种各样的模型都被研究出来,卷积、Transformer 也是计算机视觉中国常用的模型,而最近清华大学发表了一篇 survey,研究结果或许表明全连接层才是最适合视觉的模型,并将迎来新的 AI 范式转换! 多层感知机(MLP)或全连接(FC)网络是历史上
0

Transformer大升级!谷歌、OpenAI联合推出分层模型,刷榜ImageNet32刷新SOTA

新智元报道 编辑:小咸鱼 【新智元导读】来自谷歌、OpenAI 和华沙大学的一个团队提出了一种新的用于语言建模的高效 Transformer 架构 Hourglass,在 ImageNet32 上达到新的 SOTA,证明拥有一个明确的分层结构是 Transformer 能有效处理长序列的关键。Hou
0

港中文博士提出首个基于Transformer的条件GAN:成像质量仍不如CNN

新智元报道 编辑:LRS 【新智元导读】Transformer 在图像分类任务上经过充分训练已经足以完全超越 CNN 模型,但 GAN 仍然是 Transformer 无法踏足的领域。最近港中文博士提出首个基于 Transformer 的条件 GAN 模型 STransGAN,缓解了 Transfo
0

北大联合UCLA发表论文:9头以上Transformer就能模拟CNN!

新智元报道 编辑:LRS 【新智元导读】在 Transformer 当道的今天,CNN 的光芒逐渐被掩盖,但 Transformer 能否完全取代 CNN 还是一个未知数。最近北大联合 UCLA 发表论文,他们发现 Transformer 可以在一定限制条件下模拟 CNN,并且提出一个两阶段训练框架
0

为何Transformer在计算机视觉中如此受欢迎?

近一年来,Transformer 在计算机视觉领域所带来的革命性提升,引起了学术界的广泛关注,有越来越多的研究人员投入其中。Transformer 的特点和优势是什么?为什么在计算机领域中 Transformer 可以频频出圈?让我们通过今天的文章来一探究竟吧! 「统一性」是很多学科共同追求的目标,
0

谷歌大脑Quoc发布Primer,从操作原语搜索高效Transformer变体

新智元报道 来源:arXiv 编辑:LRS 【新智元导读】调参、改激活函数提高模型性能已经见怪不改了。最近 Google Brain 的首席 Quoc 发布了一个搜索框架,能够自动搜索高效率的 Transformer 变体,并找到一些有效的模型 Primer,其中 ReLU 加个平方竟然能提升最多性
0

正面刚CNN,Transformer居然连犯错都像人类

梦晨水木番发自凹非寺 量子位报道公众号 QbitAI 这是你眼里的一只猫: 这是 CNN 眼里的一只猫: 这是 ViT (Vision Transformer)眼里的一只猫: 从去年起,Transformer 忙着跨界 CV,如 ViT 在图像分类上准确率已超过 CNN,大有取代之势。 这背后的原因
2

用Transformer进行图像语义分割,性能超最先进的卷积方法!

丰色发自凹非寺 量子位报道公众号 QbitAI 正如大家所知,在进行图像语义分割时,图像被编码成一系列补丁后往往很模糊,需要借助上下文信息才能被正确分割。 因此上下文建模对图像语义分割的性能至关重要! 而与以往基于卷积网络的方法不同,来自法国的一个研究团队另辟蹊径,提出了一种只使用 Transfor
0

清华团队将Transformer用到3D点云分割上后,效果好极了丨开源

来源:量子位 萧箫发自凹非寺 量子位报道公众号 QbitAI 当 Transformer 遇上 3D 点云,效果会怎么样? 一个是当下最热门的模型(NLP、图像领域表现都不错),另一个是自动驾驶领域、机器人抓取等领域的关键技术。 来自清华计算机系的团队,开发出了一个全新的 PCT 网络,相比于目前主

最新评论