Transformer八周年，Attention Is All You Need被引破18万封神

Transformer八周年，Attention Is All You Need被引破18万封神

4.8

0热度

Transformer，八岁了！开创如今这场生成式AI革命的论文《Attention Is All You Need》迎来了第8个年头。Transformer催生了ChatGPT、Gemini、Claude等诸多前沿产品。更重要的是，它让人类真正跨入了生成式AI时代。人类和生成式AI的命运从2017年6月12日周一下午17点57分开始交汇。Transformer的影响依然还在继续！

Transformer，八岁了！

开创如今这场生成式AI革命的论文《Attention Is All You Need》迎来了第8个年头。

Transformer催生了ChatGPT、Gemini、Claude等诸多前沿产品。

更重要的是，它让人类真正跨入了生成式AI时代。

人类和生成式AI的命运从2017年6月12日周一下午17点57分开始交汇。

Transformer的影响依然还在继续！

到今天为止，这篇论文的被引次数已经到了184376！

而在两年前的6周年时候，被引次数是77926。

仅仅过去两年时间，被引用次数翻了2倍还多！

网友们也纷纷为Transformer 8岁生日送上祝福。

但和所有传奇故事的开头都非常相似，这篇论文当年甚至没有引起人们的Attention（注意）。

一篇未获人们「Attention」的传奇论文

Transformer发表在2017年的NeurIPS上，这是全球顶级的人工智能会议之一。

然而，它甚至没有获得Oral演讲，更不用说获奖了。

2017年的NeurlPS获奖论文

从如今的影响力和现实意义来看，谷歌公开这篇文章算得上是「功德无量」。

网友也盛赞谷歌的做事方式，允许任何人完全免费使用，甚至不需要许可证授权。

但随着生成式AI的发展，各家巨头的加入，谷歌也开始逐渐收回自己的「善意」。

在大模型如今竞争白热化的当下，谷歌DeepMind要求所有科研人员的生成式AI相关论文设定6个月禁发期！

DeepMind的CEO Hassabis曾表示：不接受，就辞职，这里是公司，不是大学校园；想在大学那样的环境工作，那就请你离开。

不仅如此，创新成果不发，Gemini短板也不能提。

或许谷歌一开始也并没有预料到Transformer会影响人类历史如此深远。

人人都爱Transformer

作为一篇严肃的机器学习向论文，《Attention Is All You Need》自发布以来，已经有无数人进行了解读。

不论是否和机器学习行业相关，人们「渴望」搞清楚目前生成式AI的能力究竟来源于哪里。

不论是国内还是海外，试图带你读懂论文的视频都有很高的热度，并且直到今天，「教你学会」、「带你看懂」等内容依然有非常高的播放量。

科技领域的顶级KOL Lex Fridman和AI界的顶级科学家Andrej Karpathy 认为Transformer是AI世界中「最棒的想法」，没有之一。

而「XXX Is All You Need」甚至成为了严肃学界乐此不疲的玩梗素材。

论文题目直接套用了披头士名曲《All You Need Is Love》的说法，也正因其简洁而响亮的表达方式，迅速被AI学界和网络社区广泛引用和调侃——

从「Attention Is All You Need」延伸为「X Is All You Need」的各种变体，形成一整套互联网meme式的幽默结构。

「标题的成功」还引发了一连串同样玩梗的论文出现，这些论文的标题或内容都借用了这一俏皮话。

有研究人员甚至制作了一张图展示了对所有这些论文的综述，使读者能够总结出这些论断出现的背景及其原因。

Transformer后时代：AI八年狂飙

自Transformer问世以来的八年间，研究者和工程师们围绕这一架构进行了大量探索和改进。

Transformer的发展历程既包括模型本身的架构优化，也包括模型规模的指数级扩展，以及向多模态领域的延伸融合。

Transformer架构天然适合并行计算，这使得研究人员能够不断堆高模型参数规模，验证「大模型是否更聪明」。

事实也证明，参数和数据规模的扩张带来了质的飞跃。

从最初论文中的亿级参数模型，到2018年的BERT（3.4亿参数）和GPT-2（15亿参数），再到2020年的GPT-3（1750亿参数），模型大小呈指数级增长。

OpenAI等机构的研究揭示了清晰的Scaling Law（规模定律）：模型越大，数据越多，性能越佳且涌现出小模型不具备的新能力。

随着规模扩张，Transformer模型展现出令人惊叹的零样本/小样本学习能力，即无需或只需极少示例就能完成新任务。

模型规模的扩展带来了AI能力的质变，使Transformer成为真正的基础模型（Foundation Model）——一经训练即可泛化支持众多下游应用。

不过，每个传奇故事似乎都没有那么Happy Ending的结尾。

曾经联手打造出谷歌最强Transformer的「变形金刚们」如今也已分道扬镳。

8年前一篇不起眼的论文，却彻底开启了人类的生成式AI时代。

这个被忽视的小论文，彻底开启了AI的大时代。

它的故事还远远没有结束。

目前的AI仍然继续在Transformer架构基础上狂飙突进。

Transformer的影响力还能持续多久，也许只有等AGI实现那天来回答了。

但无论未来AI技术如何演变，Transformer已经在历史上留下永久且深刻的印记。

参考资料：

Transformer全新里程碑！诞生6年，开山之作被引近8万，没夺下NeurIPS最佳论文，却彻底改变AI界

Transformer八子全部叛逃谷歌！最后一位共同作者月底离职创业

本文来自微信公众号“新智元”，作者：新智元，36氪经授权发布。

声明：文章著作权归作者所有。本站内容来源于公开的各类媒体平台，若收录的内容侵犯了您的权益，请联系邮箱aichina360@163.com，并在邮箱中提供有效版权证明文件给我们，我们将第一时间进行处理。

转载请注明出处： AI中国|教程|工具大全 » Transformer八周年，Attention Is All You Need被引破18万封神