从头开始构建，DeepMind新论文用伪代码详解Transformer

王林

发布时间：2023-04-09 20:31:09

1660人浏览过

来源于51CTO.COM

转载

2017 年 Transformer 横空出世，由谷歌在论文《Attention is all you need》中引入。这篇论文抛弃了以往深度学习任务里面使用到的 CNN 和 RNN。这一开创性的研究颠覆了以往序列建模和 RNN 划等号的思路，如今被广泛用于 NLP。大热的 GPT、BERT 等都是基于 Transformer 构建的。

Transformer 自推出以来，研究者已经提出了许多变体。但大家对 Transformer 的描述似乎都是以口头形式、图形解释等方式介绍该架构。关于 Transformer 的伪代码描述可参考的资料很少。

正如下面这段话所表达的：一位 AI 领域非常出名的研究者，曾向一位著名的复杂性理论家发送了一篇自认为写得非常好的论文。而理论家的回答是：我在论文中找不到任何定理，我不知道这篇论文是关于什么的。

对于从业者来说，论文可能足够详细，但理论家需要的精度通常更高。由于某些原因，DL 社区似乎不愿为他们的神经网络模型提供伪代码。

目前看来，DL 社区存在以下问题：

DL 出版物缺乏科学的准确性和细节。深度学习在过去 5 到 10 年间取得了巨大的成功，每年发表的论文数以千计。许多研究者只是非正式地描述了他们如何改变以前的模型，大约 100 多页的论文只包含几行非正式地模型描述。充其量是一些高级图表，没有伪代码，没有方程式，没有提到对模型的精确解释。甚至没有人为著名的 Transformer 及其编码器 / 解码器变体提供伪代码。

源代码与伪代码。开源源代码非常有用，但与数千行的真实源代码相比，精心设计的伪代码通常不到一页，并且基本上仍然是完整的。这似乎是一项没有人愿意做的苦工作。

解释训练过程同样重要，但有时论文中甚至没有提到模型的输入和输出以及潜在的副作用是什么。论文中的实验部分通常不会解释输入算法的内容以及如何输入。如果方法部分有一些解释，通常与实验部分中描述的内容脱节，可能是由于不同的作者编写了不同的部分造成的。

有人会问：真的需要伪代码吗? 伪代码有什么用？

来自 DeepMind 的研究者认为提供伪代码有很多用途，与阅读文章或滚动 1000 行实际代码相比，伪代码将所有重要的内容浓缩在一页纸上，更容易开发新的变体。为此，他们最近发表的一篇论文《 Formal Algorithms for Transformers 》，文章以完备的、数学上精确的方式来描述 Transformer 架构。

论文简介

本文涵盖了什么是 Transformer、Transformer 如何训练、Transformer 被用来做什么、Transformer 关键架构组件以及比较出名的模型预览。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

论文地址：https://arxiv.org/pdf/2207.09238.pdf

不过，阅读本文，读者需熟悉基础 ML 术语和简单的神经网络体系架构 (如 MLPs)。对于读者而言，在理解了文中的内容后，将会扎实的掌握 Transformer，并可能会使用伪代码实现自己的 Transformer 变体。

Cutout.Pro抠图

AI批量抠图去背景

下载

这篇论文的主体部分是第 3-8 章，分别介绍了 Transformer 及其典型任务、tokenization、Transformer 的架构组成、Transformer 的训练和推理、实际应用。

论文中基本完整的伪代码大约有 50 行，而实际的真实源代码则有数千行。论文中表述算法的伪代码适用于需要紧凑、完整和精确公式的理论研究者、从头实现 Transformer 的实验研究人员，同时对使用形式 Transformer 算法扩充论文或教科书也大有裨益。

论文中伪代码示例

对于熟悉基本的 ML 术语和简单的神经网络架构（例如 MLP）的初学者来说，这篇论文将帮你掌握扎实的 Transformer 基础，并用伪代码模板实现自己的 Transformer 模型。

作者介绍

这篇论文的第一作者是今年 3 月正式入职 DeepMind 的研究员 Mary Phuong。她博士毕业于奥地利科学技术研究所，主要从事机器学习的理论研究。

论文的另一位作者是 DeepMind 的资深研究员 Marcus Hutter，也是澳大利亚国立大学 (ANU) 计算机科学研究院 (RSCS) 的名誉教授。

Marcus Hutter 多年来一直从事人工智能数学理论的研究。这一研究领域基于若干数学和计算科学概念，涉及强化学习、概率论、算法信息理论、优化、搜索和计算理论等。他的书《通用人工智能：基于算法概率的顺序决策》于 2005 年出版，这是一本技术性和数学性都很强的书。

2002 年，Marcus Hutter 与 Jürgen Schmidhuber 和 Shane Legg 一起提出了基于理想化智能体和奖励强化学习的人工智能数学理论 AIXI。2009 年，Marcus Hutter 又提出了特征强化学习理论。

Gemini怎样写精准提示词_Gemini提示词编写方法【步骤】

通义千问怎样写文案_通义千问文案写作教程【指南】

如何让ChatGPT模仿特定文风创意写作与品牌话术生成教程

批改网AI检测工具怎么关联班级学生_批改网AI检测工具班级绑定与学生管理【步骤】

AI网页生成工具有哪些_一键生成企业官网的AI工具推荐

相关标签:

架构 for 算法人工智能 cnn rnn transformer bert nlp https gpt

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：最近大火的Diffusion Model，首篇扩散生成模型综述！下一篇：Meta研究人员做出AI新尝试：教机器人无需地图或训练实现物理导航

作者最新文章

告别繁琐手动创建！MezzioTooling助你高效构建现代PHP应用

2025-09-15 11:32

如何解决复杂命令行任务的痛点，使用spryker/console让PHP命令开发更高效

2025-09-15 11:55

如何高效且灵活地管理电商订单计算？Spryker/Calculation模块助你一臂之力

2025-09-15 12:32

如何高效集成在线支付功能？Composer与iyzico/iyzipay-php助你轻松搞定！

2025-09-16 10:12

还在为Magento2慢吞吞的搜索发愁？AlgoliaSearch&Discovery助你打造闪电般的用户体验！

2025-09-16 10:34

如何解决电商库存管理混乱难题？Spryker/Stock模块助你轻松搞定！

2025-09-16 11:12

快速上手夸克浏览器AI搜索_夸克AI搜索保姆级图文教程

2025-10-14 20:48

夸克浏览器AI搜索无法使用_解决夸克AI搜索问题的有效方法

2025-10-15 14:04

夸克浏览器AI搜索设置教程_夸克AI搜索功能详细开启步骤

2025-10-18 13:32

夸克浏览器AI搜索结果不准_优化夸克AI搜索设置的技巧

2025-10-26 10:58

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

AI大模型

PDF 文档

相关专题

页面置换算法

页面置换算法是操作系统中用来决定在内存中哪些页面应该被换出以便为新的页面提供空间的算法。本专题为大家提供页面置换算法的相关文章，大家可以免费体验。

388

2023.08.14

人工智能在生活中的应用

人工智能在生活中的应用有语音助手、无人驾驶、金融服务、医疗诊断、智能家居、智能推荐、自然语言处理和游戏设计等。本专题为大家提供人工智能相关的文章、下载、课程内容，供大家免费下载体验。

401

2023.08.17

人工智能的基本概念是什么

人工智能的英文缩写为AI，是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学；该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

290

2024.01.09

人工智能不能取代人类的原因是什么

人工智能不能取代人类的原因包括情感与意识、创造力与想象力、伦理与道德、社会交往与沟通能力、灵活性与适应性、持续学习和自我提升等。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

620

2024.09.10

Python 人工智能

本专题聚焦 Python 在人工智能与机器学习领域的核心应用，系统讲解数据预处理、特征工程、监督与无监督学习、模型训练与评估、超参数调优等关键知识。通过实战案例（如房价预测、图像分类、文本情感分析），帮助学习者全面掌握 Python 机器学习模型的构建与实战能力。

2025.10.21

http与https有哪些区别

http与https的区别：1、协议安全性；2、连接方式；3、证书管理；4、连接状态；5、端口号；6、资源消耗；7、兼容性。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

1681

2024.08.16

php源码安装教程大全

本专题整合了php源码安装教程，阅读专题下面的文章了解更多详细内容。

2025.12.31

php网站源码教程大全

本专题整合了php网站源码相关教程，阅读专题下面的文章了解更多详细内容。

2025.12.31

视频文件格式

本专题整合了视频文件格式相关内容，阅读专题下面的文章了解更多详细内容。

2025.12.31

热门下载

网站特效

网站源码

网站素材

前端模板