第三章 · Part 1 认识AI

为什么Transformer
和大模型成了分水岭

能力的突然爆发不是一个神来之笔，而是四个条件在同一个时间窗口同时成熟——少了任何一个，ChatGPT都不会出现。

一句话结论：架构突破（Transformer）+ 互联网级数据 + GPU算力飞跃 + RLHF训练方法，四个条件缺一不可，同时成熟才引爆了这场能力爆炸。

能力爆炸的四根支柱

小节一

不是一个神来之笔，而是四个条件同时成熟

引言

上一章说到，ChatGPT的出现震惊了很多人，包括业内的研究者。但如果你追问"为什么是2022年，不是2015年，也不是2030年"，答案会更有意思：因为四个条件在这个时间窗口里同时成熟了。少了任何一个，这件事都不会发生。

这有点像点燃一堆篝火。你需要氧气、燃料、合适的温度，以及一根火柴。光有木头不行，光有火柴不行，光有风也不行。大模型能力的爆发，是架构突破、数据规模、算力飞跃、训练方法这四个条件缺一不可的组合。它们各自的发展用了十年甚至二十年，最终在2017—2022年这五年间同时到位。

这一章我们逐一拆解这四根柱子。如果你读完之后的感受是"哦，原来就这么回事"，那说明它们的叙述是成功的。这四根柱子各自并不神秘，神秘的只是它们组合在一起之后，会在某个规模临界点突然长出没有人设计过的能力——也就是上一章提到的涌现。

小节二 · 第一根柱子

Transformer架构：为什么它是根本性的不同

架构突破 · 2017

在Transformer出现之前，处理语言的主流模型叫RNN（循环神经网络）和LSTM（长短时记忆网络）。它们的工作方式有一个根本性的局限：必须按顺序读文字。读第三个词的时候，第一个词的信息已经被"压缩"到了一个小小的隐藏状态里，就像信息穿越了一条窄管。文章越长，前面的细节流失得越多。你让LSTM翻译一段500字的文章，到了后半段，它已经开始"忘记"前面说过什么了。

Transformer的核心创新叫注意力机制（Attention）。它彻底抛弃了顺序阅读这个假设。处理一段文字时，每个词可以同时"看到"所有其他词，并学习判断彼此之间的相关程度——这个相关程度就叫注意力权重。"苹果落地，牛顿发现了引力"这句话里，"引力"这个词需要同时参考"苹果"、"落地"和"牛顿"才能被正确理解，注意力机制让这种多向关联可以并行计算。

RNN 顺序处理 vs Transformer 并行注意力

但Transformer真正改变游戏规则的，不只是注意力机制本身，而是它带来了一个更重要的副产品：并行计算。RNN必须按顺序处理，第二步必须等第一步完成，天然无法并行。Transformer可以同时处理所有词，意味着你可以把更多GPU同时投入训练。这个特性，直接解锁了大规模训练的可能性——当你的训练可以并行，算力就可以无限堆叠。

为什么这是"根本性的不同"

RNN就像一个人串行审阅文件：必须从第一页读到最后一页，读到第100页时第1页的细节已经模糊了。Transformer更像一个团队同时审阅：每个人拿着同一份文件，任何人在任何时候都可以翻回去核对第1页的任何细节。更关键的是，团队可以无限扩大。这让"更大的模型"第一次变成了工程上可行的选项。

普通人的感知

直接感受不到架构，但能感受到效果：ChatGPT在对话里能记住你几千字之前说过的内容，翻译一整篇文章时前后保持一致——这些都是注意力机制带来的。以前的翻译工具经常前后矛盾，因为它的"记忆"就像一条漏水的管道。

小节三 · 第二根柱子

互联网级别的数据：它读过的文字比任何人都多

数据规模

有了更好的架构，还需要有东西可以学。Transformer架构之所以能被推到极限，一个重要原因是训练数据的规模也同期突破了天花板。

GPT-3的训练数据集包括：CommonCrawl（一个对互联网进行全量爬取的数据库，清洗后约410亿词）、WebText2（Reddit上所有被点赞超过3次的链接内容）、Books1和Books2（大量英文书籍）、Wikipedia（英文维基全库）。总量超过5700亿个token（大约相当于4500亿个英文单词）。如果一个人每天读8小时，每分钟读250个单词，要读完这些内容需要大约340万年。GPT-3用了几个月。

一个关键细节

数据不是越多越好——质量和分布同样关键。2022年，DeepMind发布了一篇叫Chinchilla的论文，指出当时大多数大模型其实"训练不足"：模型参数很多，但喂的数据太少。他们给出了一个最优比例：每增加一倍参数量，训练数据也应该增加一倍。这被称为"Chinchilla定律"，直接影响了后续所有模型的训练策略。GPT-4之后的模型，大多数都遵循了这个比例。

数据里不只有文字，还有代码。GitHub上几乎所有公开仓库都被纳入了训练集。这让模型在从未被明确"教过"编程的情况下，学会了用几十种语言写代码——这是涌现的又一个典型例子。从人类写的代码中，模型归纳出了编程语言的语法规律、常见的算法模式、调试的惯用方法，全部在"预测下一个词"这一个训练目标下悄悄完成。

5700亿

GPT-3训练
token总量

340万年

人工阅读同量
内容所需时间

45TB

CommonCrawl
原始爬取体积

2×

Chinchilla定律
参数↑1倍→数据↑1倍

普通人的感知

你问ChatGPT"《百年孤独》的主题是什么"，它能给你一个像样的文学分析——因为它真的读过这本书，以及成千上万篇关于这本书的书评、论文和讨论。你问它写Python代码，它参考了GitHub上数百万个项目。它的"博学"不是被设计出来的，是数据规模堆出来的。

小节四 · 第三根柱子

算力飞跃：没有这些钱和电，什么都是空谈

算力飞跃

架构和数据都有了，还需要足够的算力来把两者结合。这是最容易被忽视、但也最不浪漫的一根柱子——它的核心就是钱和电，以及NVIDIA。

Transformer的并行特性让GPU成为了训练大模型的理想硬件。GPU本来是为游戏图形设计的——画面渲染需要同时处理几百万个像素，天然适合并行计算。研究者们发现，训练神经网络的矩阵乘法和像素渲染的数学结构高度相似，GPU可以直接用来加速AI训练。NVIDIA从2012年开始专门为AI设计计算核心（CUDA架构），2020年推出的A100显卡，单卡算力相当于2012年最先进GPU的数百倍。

规模感知：训练GPT-4需要多少资源

据行业估算，训练GPT-4使用了约25,000张A100 GPU，运行了约90至100天，电力成本加设备折旧，总计算费用约在1亿美元左右。这意味着：世界上能训练前沿大模型的，只有那几家同时拥有巨额资本、顶尖工程团队和大规模GPU集群的机构——OpenAI、Google、Meta、Anthropic，以及中国的几家头部公司。算力，实际上是大模型时代的新型"战略资源"。

算力的故事还有另一面：推理成本的持续下降。2022年ChatGPT刚上线时，每次对话的计算成本是今天的数十倍。随着英伟达持续推出更高能效的芯片（H100、H200、Blackwell系列），以及工程团队对推理流程的不断优化，今天运行一个和GPT-3.5相当能力的模型，成本只有两年前的1/30甚至更低。这是为什么今天有这么多免费或低价的AI产品——底层算力成本在快速降低。

NVIDIA GPU	发布年份	AI算力（FP16）	主要用途
Tesla K80	2014	8.7 TFLOPS	早期深度学习研究
V100	2017	125 TFLOPS	GPT-2训练
A100	2020	312 TFLOPS	GPT-3/4训练主力
H100	2022	1,000 TFLOPS	当前主流训练/推理
Blackwell B200	2024	4,500 TFLOPS	下一代训练旗舰

普通人的感知

你可能感受不到算力本身，但你能感受到它的代价：ChatGPT刚出来时经常排队，回答很慢；Midjourney生成一张图要等半分钟。今天这些都快多了，因为底层芯片和工程优化都进步了。你用的每个AI产品背后，都有一笔可观的电费账单在跑。

英伟达的故事：一个"赌错方向"的公司，赌对了基础设施

说到算力，就绕不开一个名字：黄仁勋（Jensen Huang）。2013年，他出现在小米发布会上，站在雷军身旁，用带口音的普通话喊出"我是米粉"。那次合作是小米 Mi3 搭载了 NVIDIA 的 Tegra4 处理器——但没过多久，合作就因为功耗和产能问题不欢而散。彼时的 NVIDIA，在手机市场屡次折戟，股价长期低迷，很多分析师觉得这家公司方向迷失。

但就在外界看衰的那些年，NVIDIA 内部悄悄完成了一件关键的布局。2006年，黄仁勋做了一个当时看起来很奇怪的决定：把 GPU 的并行计算能力开放给科学计算领域，专门为此开发了一套编程接口，命名为 CUDA。这不是为了游戏，而是为了那些需要大量矩阵运算的科研工作。那时深度学习还没兴起，这是一个面向不确定未来的长期赌注——NVIDIA 为此持续亏钱投入了将近六年。

赌注的兑现发生在 2012 年。Hinton 的学生用 NVIDIA GPU 训练了 AlexNet，以压倒性优势赢下 ImageNet 大赛。这是第一次有人在深度学习竞赛里用 GPU 代替 CPU，效果好到让所有人震惊。研究者随即发现：神经网络训练的矩阵乘法和 GPU 的并行架构高度契合，CUDA 让他们可以直接在 GPU 上跑深度学习代码，不需要重写底层逻辑。从那之后，几乎每一个重要的 AI 框架——TensorFlow、PyTorch——都建立在 CUDA 之上。

护城河的本质：生态，不是芯片本身

NVIDIA 今天最难被替代的不是 H100 芯片本身，而是围绕 CUDA 构建起来的开发者生态：超过 500 万开发者、3000 多个 GPU 加速应用、数以千计的已优化 AI 模型库。如果一家公司想换用其他芯片——AMD、国产 GPU——就必须把基于 CUDA 写的整套软件栈重新改写。这不是一个工程师一周能搞定的事，是一支团队要干好几年的活。这条护城河，是黄仁勋从 2006 年开始用近二十年时间慢慢填满的。

$80B

2013年市值

雷军邀请站台那年

$1T

2023年市值

突破万亿俱乐部

$3.3T

2024年峰值市值

一度超越苹果

今天，全球超过 90% 的 AI 训练在 NVIDIA 的 GPU 上运行。这家当年被雷军拉去撑场子、在手机市场屡次碰壁的公司，因为在正确的时间建好了正确的基础设施，变成了 AI 时代最不可或缺的基建提供商。黄仁勋的故事说明了一件事：在技术转型期，有时候不是最聪明的人赢，而是最早建好地基的人赢——等到潮水涌来，他们已经站在了最高处。

小节五 · 第四根柱子

RLHF：从"文字接龙高手"到"能说人话的助手"

训练方法 · RLHF

前三根柱子解释了为什么模型"能力很强"，但没解释为什么模型会"好用"。GPT-3在2020年发布后，研究界普遍承认它能力惊人，但实际使用起来很难受：你让它写一篇文章，它可能给你一半文章加一半乱码；你让它回答问题，它可能给你一段接龙的废话。它知道很多，但它不知道你想要什么。

从GPT-3到ChatGPT之间，最关键的一步不是架构升级，也不是数据扩大，而是一个叫RLHF（基于人类反馈的强化学习）的训练方法。

从GPT-3到ChatGPT：RLHF三步流程

具体来说，RLHF分三步走。第一步，OpenAI请了一批人工标注员，给模型写示范答案——你这样提问，应该这样回答。模型先跟着这些示范学，这叫监督微调（SFT）。第二步，给模型同一个问题生成多个不同的回答，再让人类标注员对这些回答排序，从中训练出一个"奖励模型"——专门用来判断哪种回答更符合人类期望。第三步，用这个奖励模型作为评委，让大模型反复生成回答、接受评分、根据分数调整自己，直到稳定输出高分回答。

这个过程听起来简单，效果却是决定性的。InstructGPT（ChatGPT的直接前身）在2022年1月发布后，OpenAI做了一个对比测试：同等参数量下，经过RLHF训练的InstructGPT，在有用性和安全性上显著优于参数量大20倍的GPT-3。换句话说，1亿参数的对齐模型，打败了1750亿参数的未对齐模型。"让模型学会人类想要什么"，比"让模型更大"更有效。

为什么ChatGPT感觉和GPT-3完全不同

GPT-3是一个极其博学的文字接龙高手。你输入"天气很好，我们去"，它会接"公园玩耍"——正确，但不一定有用。它没有意图理解，不知道你想要什么，也不会主动澄清你的需求。

经过RLHF之后的ChatGPT，学会了"如何对待一个有需求的人类用户"。它会理解指令的意图而不只是字面含义，会在不确定时给出多种选项，会在被要求做有害的事时拒绝，还会保持对话的上下文连贯性。这些不是技术能力的提升，而是行为模式的重新校准——从"文字接龙高手"变成了"会说人话的助手"。

普通人的感知

ChatGPT和你聊天时的那种"礼貌、有条理、会说不、会道歉"的感觉，不是模型天生就有的，而是RLHF训练出来的。本质上，OpenAI雇人把"好助手应该怎么说话"的偏好数据喂给了模型。你感受到的AI"个性"，是人类偏好的统计平均值。

小节六

四根柱子缺一不可：为什么是2022年，不是更早或更晚

现在可以回答开头的问题了：为什么是2022年11月，而不是2018年或者2030年？因为这四根柱子是在不同的时间线上独立发展的，它们同时成熟的窗口，恰好就是这几年。

Transformer架构2017年有了，但那时的GPU集群规模还不够。2020年算力到位了，GPT-3发布，但它太难用，没有RLHF的加持。2022年初InstructGPT出来，证明了RLHF有效，11月ChatGPT用了更大的模型加上更多的对话数据，做了更完整的RLHF对齐，配上足够的推理算力支撑大规模用户——四根柱子第一次同时到位。

柱子	关键节点	如果缺少它
① 架构（Transformer）	2017年论文发布	无法并行扩展，规模上不去
② 数据规模	互联网爬取+清洗体系成熟	模型知识面窄，泛化能力差
③ 算力飞跃	A100发布+大规模GPU集群	训练成本高到无法承担
④ 训练方法（RLHF）	InstructGPT 2022年1月	模型能力强但不好用，难以落地

一个让工程师不舒服的真相

了解了这四根柱子，有一件事会让做工程的人感到不太舒服：这里面最重要的突破，并不是某个精妙的算法创新，而是"规模"本身。Transformer架构在数学上并不比此前的方法复杂多少；RLHF的原理也不新鲜，强化学习早在1990年代就有了；数据更是直接爬互联网。真正让一切成立的，是把足够大的架构、足够多的数据、足够强的算力、足够好的对齐方法堆在一起，然后等待涌现出现。

Sutton在《苦涩的教训》里说过的那句话，在这里又一次得到了验证：不是更聪明的算法赢了，而是更愿意堆规模的方法赢了。这不意味着算法不重要，而是说在这个时代，能把规模堆起来的人，比能想出精巧算法的人，先走到了终点。

四根柱子的本质：不是"发明"，而是"组装"

Transformer之前的技术都存在了很多年。注意力机制2015年就有论文了，强化学习是1990年代的产物，互联网爬虫更是更早的技术。OpenAI（和谷歌、Meta）做的事情，不是发明了某个全新的原理，而是把所有这些零件同时推到了极限，组装在一起，然后等待临界点的到来。

这不是贬低，这是一种非常重要的工程能力——知道哪些零件值得一起堆，以及什么时候堆，本身就是判断力。

小节七

为什么是OpenAI：大公司的围墙，和一群人的赌注

OpenAI · 历史转折

2022年12月，谷歌内部发出了一封不寻常的警报通知，主题被称为"Code Red"——红色警报。起因是一件看起来不算大的事：一家叫 OpenAI 的小公司，把一个叫 ChatGPT 的聊天机器人挂到了网上，五天内用户突破100万。Sundar Pichai（谷歌CEO）随即取消年假，召集高层紧急会议，重新分配 AI 产品团队的资源和优先级。谷歌慌了。

这件事让外界困惑：为什么谷歌自己没做出 ChatGPT？谷歌拥有的 AI 人才可能是全球最多的——DeepMind、Google Brain、谷歌翻译团队，以及写出 Transformer 论文的那批研究者，几乎都在谷歌的屋顶下工作。谷歌不缺技术，不缺数据，不缺算力。它缺的是一个让人尴尬的东西：动机。

谷歌的两难困境：创新者困境的教科书案例

谷歌搜索广告贡献了 Alphabet 超过 56% 的收入，加上 YouTube 广告接近 80%。搜索的商业模式是：用户问问题 → 谷歌展示广告 → 用户点广告 → 谷歌赚钱。但如果换成对话式 AI，用户直接得到答案，就不需要点广告了。Sundar Pichai 曾说："一个聊天机器人对大公司来说是很大的声誉风险。"这话说的是安全问题，但可以反过来读：一旦做成了，谷歌自己的搜索广告就开始动摇。这就是"创新者困境"——当你的主营业务越成功，你就越难主动颠覆它。

OpenAI 不一样。它 2015 年 12 月由伊隆·马斯克、山姆·奥特曼、格雷格·布罗克曼、伊利亚·苏茨克维等人联合创立，最初定位是"非营利性 AI 安全研究机构"，初始捐款承诺超过 10 亿美元。创始团队里很多人来自谷歌和 DeepMind，他们很清楚技术上可以做什么，也很清楚大公司为什么不会做。2019年微软投了 10 亿美元，2023年追投 100 亿——不是出于慈善，而是因为 Bing 在谷歌面前毫无胜算，OpenAI 是微软唯一的翻盘机会。

OpenAI 关键节点

2015马斯克、奥特曼等联合创立，非营利定位，初始捐款10亿美元

2019微软投资10亿美元；GPT-2发布，OpenAI自己因"太危险"延迟全量发布

2020GPT-3发布，1750亿参数，业界震动；但 API 封闭，普通人用不到

2022.1InstructGPT 发布，RLHF 被证明有效；同年 DALL-E 2 震撼图像生成领域

2022.11ChatGPT 上线——5天100万用户，2个月1亿用户，史上增长最快的消费级产品

2023.1微软追投100亿；谷歌宣布"Code Red"，紧急推出 Bard（后改名 Gemini）

那么，如果没有 OpenAI，这件事会发生吗？答案很可能是：会，只是晚一两年。谷歌有 LaMDA，Meta 有 LLaMA 的前身，Anthropic（由 OpenAI 前高管创立）2021年就已经成立。技术栈都在，研究者都在，资本也在。OpenAI 真正的贡献不是"发明了 ChatGPT"，而是做了一件大公司很难做到的事：把一个还不够完美的产品，免费放到了消费者面前，让全世界 1 亿人在两个月内亲身感受到了边界在哪里。

大公司的围墙，和小团队的赌注

谷歌没做出 ChatGPT，不是因为不聪明，而是因为它有太多东西可以失去。OpenAI 做出来了，不是因为特别天才，而是因为它的商业结构里没有那道必须守住的门。历史上每一次技术代际更迭，几乎都遵循同一个模式：颠覆者往往不是最强的那个，而是利益牵绊最少的那个。

这个规律，你在宇树 vs 波士顿动力、短视频 vs 长视频，乃至每一个被打翻的行业里，都能找到同样的剧本。

大模型能力的爆发不是一夜之间，也不是某个天才的灵感。它是架构（Transformer的并行注意力）、数据（互联网级文本语料）、算力（GPU集群的指数级增长）、训练方法（RLHF的人类反馈对齐）四根柱子同时成熟、同时到位的结果。理解了这四根柱子，你就理解了为什么大模型"这么博学"、"这么好用"、"这么贵"，以及为什么它们还会继续快速演化——因为每一根柱子都还在持续进步中。

→ 下一章：今天前沿研究到底在卷什么

为什么Transformer和大模型成了分水岭

不是一个神来之笔，而是四个条件同时成熟

Transformer架构：为什么它是根本性的不同

互联网级别的数据：它读过的文字比任何人都多

算力飞跃：没有这些钱和电，什么都是空谈

英伟达的故事：一个"赌错方向"的公司，赌对了基础设施

RLHF：从"文字接龙高手"到"能说人话的助手"

四根柱子缺一不可：为什么是2022年，不是更早或更晚

一个让工程师不舒服的真相

为什么是OpenAI：大公司的围墙，和一群人的赌注

为什么Transformer
和大模型成了分水岭