第三章 · Part 1 认识AI

为什么Transformer
和大模型成了分水岭

能力的突然爆发不是一个神来之笔,而是四个条件在同一个时间窗口同时成熟——少了任何一个,ChatGPT都不会出现。

一句话结论:架构突破(Transformer)+ 互联网级数据 + GPU算力飞跃 + RLHF训练方法,四个条件缺一不可,同时成熟才引爆了这场能力爆炸。
能力爆炸的四根支柱
① 架构突破 Transformer 注意力机制 并行计算 长上下文 可无限扩展 2017年 ② 数据规模 互联网级文本 CommonCrawl Wikipedia全库 GitHub代码 书籍/论文 3000亿+ tokens ③ 算力飞跃 GPU集群 NVIDIA A100/H100 数千卡并行训练 专用AI芯片TPU 云计算基础设施 GPT-4训练耗资~1亿美元 ④ 训练方法 RLHF 预训练→微调 人类反馈对齐 奖励模型训练 指令微调(SFT) GPT-3→ChatGPT的关键 ⚡ 能力爆炸 ChatGPT · 2022.11

不是一个神来之笔,而是四个条件同时成熟

引言

上一章说到,ChatGPT的出现震惊了很多人,包括业内的研究者。但如果你追问"为什么是2022年,不是2015年,也不是2030年",答案会更有意思:因为四个条件在这个时间窗口里同时成熟了。少了任何一个,这件事都不会发生。

这有点像点燃一堆篝火。你需要氧气、燃料、合适的温度,以及一根火柴。光有木头不行,光有火柴不行,光有风也不行。大模型能力的爆发,是架构突破、数据规模、算力飞跃、训练方法这四个条件缺一不可的组合。它们各自的发展用了十年甚至二十年,最终在2017—2022年这五年间同时到位。

这一章我们逐一拆解这四根柱子。如果你读完之后的感受是"哦,原来就这么回事",那说明它们的叙述是成功的。这四根柱子各自并不神秘,神秘的只是它们组合在一起之后,会在某个规模临界点突然长出没有人设计过的能力——也就是上一章提到的涌现。

Transformer架构:为什么它是根本性的不同

架构突破 · 2017

在Transformer出现之前,处理语言的主流模型叫RNN(循环神经网络)和LSTM(长短时记忆网络)。它们的工作方式有一个根本性的局限:必须按顺序读文字。读第三个词的时候,第一个词的信息已经被"压缩"到了一个小小的隐藏状态里,就像信息穿越了一条窄管。文章越长,前面的细节流失得越多。你让LSTM翻译一段500字的文章,到了后半段,它已经开始"忘记"前面说过什么了。

Transformer的核心创新叫注意力机制(Attention)。它彻底抛弃了顺序阅读这个假设。处理一段文字时,每个词可以同时"看到"所有其他词,并学习判断彼此之间的相关程度——这个相关程度就叫注意力权重。"苹果落地,牛顿发现了引力"这句话里,"引力"这个词需要同时参考"苹果"、"落地"和"牛顿"才能被正确理解,注意力机制让这种多向关联可以并行计算。

RNN 顺序处理 vs Transformer 并行注意力
RNN / LSTM(顺序处理) 信息经过窄管,越传越失真 苹果 t=1 落地 t=2 牛顿 t=3 引力 t=4 100% 70% 40% 只有早期信息的残影 Transformer(并行注意力) 每个词同时关注所有词,无衰减 苹果 落地 牛顿 引力 全量关注 每个词同时获得完整上下文信息

但Transformer真正改变游戏规则的,不只是注意力机制本身,而是它带来了一个更重要的副产品:并行计算。RNN必须按顺序处理,第二步必须等第一步完成,天然无法并行。Transformer可以同时处理所有词,意味着你可以把更多GPU同时投入训练。这个特性,直接解锁了大规模训练的可能性——当你的训练可以并行,算力就可以无限堆叠。

为什么这是"根本性的不同"
RNN就像一个人串行审阅文件:必须从第一页读到最后一页,读到第100页时第1页的细节已经模糊了。Transformer更像一个团队同时审阅:每个人拿着同一份文件,任何人在任何时候都可以翻回去核对第1页的任何细节。更关键的是,团队可以无限扩大。这让"更大的模型"第一次变成了工程上可行的选项。
普通人的感知

直接感受不到架构,但能感受到效果:ChatGPT在对话里能记住你几千字之前说过的内容,翻译一整篇文章时前后保持一致——这些都是注意力机制带来的。以前的翻译工具经常前后矛盾,因为它的"记忆"就像一条漏水的管道。

互联网级别的数据:它读过的文字比任何人都多

数据规模

有了更好的架构,还需要有东西可以学。Transformer架构之所以能被推到极限,一个重要原因是训练数据的规模也同期突破了天花板。

GPT-3的训练数据集包括:CommonCrawl(一个对互联网进行全量爬取的数据库,清洗后约410亿词)、WebText2(Reddit上所有被点赞超过3次的链接内容)、Books1和Books2(大量英文书籍)、Wikipedia(英文维基全库)。总量超过5700亿个token(大约相当于4500亿个英文单词)。如果一个人每天读8小时,每分钟读250个单词,要读完这些内容需要大约340万年。GPT-3用了几个月。

一个关键细节
数据不是越多越好——质量和分布同样关键。2022年,DeepMind发布了一篇叫Chinchilla的论文,指出当时大多数大模型其实"训练不足":模型参数很多,但喂的数据太少。他们给出了一个最优比例:每增加一倍参数量,训练数据也应该增加一倍。这被称为"Chinchilla定律",直接影响了后续所有模型的训练策略。GPT-4之后的模型,大多数都遵循了这个比例。

数据里不只有文字,还有代码。GitHub上几乎所有公开仓库都被纳入了训练集。这让模型在从未被明确"教过"编程的情况下,学会了用几十种语言写代码——这是涌现的又一个典型例子。从人类写的代码中,模型归纳出了编程语言的语法规律、常见的算法模式、调试的惯用方法,全部在"预测下一个词"这一个训练目标下悄悄完成。

5700亿
GPT-3训练
token总量
340万年
人工阅读同量
内容所需时间
45TB
CommonCrawl
原始爬取体积
Chinchilla定律
参数↑1倍→数据↑1倍
普通人的感知

你问ChatGPT"《百年孤独》的主题是什么",它能给你一个像样的文学分析——因为它真的读过这本书,以及成千上万篇关于这本书的书评、论文和讨论。你问它写Python代码,它参考了GitHub上数百万个项目。它的"博学"不是被设计出来的,是数据规模堆出来的。

算力飞跃:没有这些钱和电,什么都是空谈

算力飞跃

架构和数据都有了,还需要足够的算力来把两者结合。这是最容易被忽视、但也最不浪漫的一根柱子——它的核心就是钱和电,以及NVIDIA。

Transformer的并行特性让GPU成为了训练大模型的理想硬件。GPU本来是为游戏图形设计的——画面渲染需要同时处理几百万个像素,天然适合并行计算。研究者们发现,训练神经网络的矩阵乘法和像素渲染的数学结构高度相似,GPU可以直接用来加速AI训练。NVIDIA从2012年开始专门为AI设计计算核心(CUDA架构),2020年推出的A100显卡,单卡算力相当于2012年最先进GPU的数百倍。

规模感知:训练GPT-4需要多少资源
据行业估算,训练GPT-4使用了约25,000张A100 GPU,运行了约90至100天,电力成本加设备折旧,总计算费用约在1亿美元左右。这意味着:世界上能训练前沿大模型的,只有那几家同时拥有巨额资本、顶尖工程团队和大规模GPU集群的机构——OpenAI、Google、Meta、Anthropic,以及中国的几家头部公司。算力,实际上是大模型时代的新型"战略资源"。

算力的故事还有另一面:推理成本的持续下降。2022年ChatGPT刚上线时,每次对话的计算成本是今天的数十倍。随着英伟达持续推出更高能效的芯片(H100、H200、Blackwell系列),以及工程团队对推理流程的不断优化,今天运行一个和GPT-3.5相当能力的模型,成本只有两年前的1/30甚至更低。这是为什么今天有这么多免费或低价的AI产品——底层算力成本在快速降低。

NVIDIA GPU发布年份AI算力(FP16)主要用途
Tesla K8020148.7 TFLOPS早期深度学习研究
V1002017125 TFLOPSGPT-2训练
A1002020312 TFLOPSGPT-3/4训练主力
H10020221,000 TFLOPS当前主流训练/推理
Blackwell B20020244,500 TFLOPS下一代训练旗舰
普通人的感知

你可能感受不到算力本身,但你能感受到它的代价:ChatGPT刚出来时经常排队,回答很慢;Midjourney生成一张图要等半分钟。今天这些都快多了,因为底层芯片和工程优化都进步了。你用的每个AI产品背后,都有一笔可观的电费账单在跑。

英伟达的故事:一个"赌错方向"的公司,赌对了基础设施

说到算力,就绕不开一个名字:黄仁勋(Jensen Huang)。2013年,他出现在小米发布会上,站在雷军身旁,用带口音的普通话喊出"我是米粉"。那次合作是小米 Mi3 搭载了 NVIDIA 的 Tegra4 处理器——但没过多久,合作就因为功耗和产能问题不欢而散。彼时的 NVIDIA,在手机市场屡次折戟,股价长期低迷,很多分析师觉得这家公司方向迷失。

但就在外界看衰的那些年,NVIDIA 内部悄悄完成了一件关键的布局。2006年,黄仁勋做了一个当时看起来很奇怪的决定:把 GPU 的并行计算能力开放给科学计算领域,专门为此开发了一套编程接口,命名为 CUDA。这不是为了游戏,而是为了那些需要大量矩阵运算的科研工作。那时深度学习还没兴起,这是一个面向不确定未来的长期赌注——NVIDIA 为此持续亏钱投入了将近六年。

赌注的兑现发生在 2012 年。Hinton 的学生用 NVIDIA GPU 训练了 AlexNet,以压倒性优势赢下 ImageNet 大赛。这是第一次有人在深度学习竞赛里用 GPU 代替 CPU,效果好到让所有人震惊。研究者随即发现:神经网络训练的矩阵乘法和 GPU 的并行架构高度契合,CUDA 让他们可以直接在 GPU 上跑深度学习代码,不需要重写底层逻辑。从那之后,几乎每一个重要的 AI 框架——TensorFlow、PyTorch——都建立在 CUDA 之上。

护城河的本质:生态,不是芯片本身

NVIDIA 今天最难被替代的不是 H100 芯片本身,而是围绕 CUDA 构建起来的开发者生态:超过 500 万开发者、3000 多个 GPU 加速应用、数以千计的已优化 AI 模型库。如果一家公司想换用其他芯片——AMD、国产 GPU——就必须把基于 CUDA 写的整套软件栈重新改写。这不是一个工程师一周能搞定的事,是一支团队要干好几年的活。这条护城河,是黄仁勋从 2006 年开始用近二十年时间慢慢填满的。

$80B
2013年市值
雷军邀请站台那年
$1T
2023年市值
突破万亿俱乐部
$3.3T
2024年峰值市值
一度超越苹果

今天,全球超过 90% 的 AI 训练在 NVIDIA 的 GPU 上运行。这家当年被雷军拉去撑场子、在手机市场屡次碰壁的公司,因为在正确的时间建好了正确的基础设施,变成了 AI 时代最不可或缺的基建提供商。黄仁勋的故事说明了一件事:在技术转型期,有时候不是最聪明的人赢,而是最早建好地基的人赢——等到潮水涌来,他们已经站在了最高处。

RLHF:从"文字接龙高手"到"能说人话的助手"

训练方法 · RLHF

前三根柱子解释了为什么模型"能力很强",但没解释为什么模型会"好用"。GPT-3在2020年发布后,研究界普遍承认它能力惊人,但实际使用起来很难受:你让它写一篇文章,它可能给你一半文章加一半乱码;你让它回答问题,它可能给你一段接龙的废话。它知道很多,但它不知道你想要什么。

从GPT-3到ChatGPT之间,最关键的一步不是架构升级,也不是数据扩大,而是一个叫RLHF(基于人类反馈的强化学习)的训练方法。

从GPT-3到ChatGPT:RLHF三步流程
① 指令微调(SFT) 人工写示范回答 教模型"这样回答才对" 约1.3万条高质量示范 ② 奖励模型(RM) 让人类对多个回答排序 训练出"什么是好回答"的判断 约5万条人类偏好数据 ③ 强化学习优化(PPO) 用奖励模型打分 不断调整模型让分数更高 让模型学会"取悦人类" GPT-3.5基础 学会什么是"好" → InstructGPT → ChatGPT

具体来说,RLHF分三步走。第一步,OpenAI请了一批人工标注员,给模型写示范答案——你这样提问,应该这样回答。模型先跟着这些示范学,这叫监督微调(SFT)。第二步,给模型同一个问题生成多个不同的回答,再让人类标注员对这些回答排序,从中训练出一个"奖励模型"——专门用来判断哪种回答更符合人类期望。第三步,用这个奖励模型作为评委,让大模型反复生成回答、接受评分、根据分数调整自己,直到稳定输出高分回答。

这个过程听起来简单,效果却是决定性的。InstructGPT(ChatGPT的直接前身)在2022年1月发布后,OpenAI做了一个对比测试:同等参数量下,经过RLHF训练的InstructGPT,在有用性和安全性上显著优于参数量大20倍的GPT-3。换句话说,1亿参数的对齐模型,打败了1750亿参数的未对齐模型。"让模型学会人类想要什么",比"让模型更大"更有效。

为什么ChatGPT感觉和GPT-3完全不同

GPT-3是一个极其博学的文字接龙高手。你输入"天气很好,我们去",它会接"公园玩耍"——正确,但不一定有用。它没有意图理解,不知道你想要什么,也不会主动澄清你的需求。

经过RLHF之后的ChatGPT,学会了"如何对待一个有需求的人类用户"。它会理解指令的意图而不只是字面含义,会在不确定时给出多种选项,会在被要求做有害的事时拒绝,还会保持对话的上下文连贯性。这些不是技术能力的提升,而是行为模式的重新校准——从"文字接龙高手"变成了"会说人话的助手"。

普通人的感知

ChatGPT和你聊天时的那种"礼貌、有条理、会说不、会道歉"的感觉,不是模型天生就有的,而是RLHF训练出来的。本质上,OpenAI雇人把"好助手应该怎么说话"的偏好数据喂给了模型。你感受到的AI"个性",是人类偏好的统计平均值。

四根柱子缺一不可:为什么是2022年,不是更早或更晚

现在可以回答开头的问题了:为什么是2022年11月,而不是2018年或者2030年?因为这四根柱子是在不同的时间线上独立发展的,它们同时成熟的窗口,恰好就是这几年。

Transformer架构2017年有了,但那时的GPU集群规模还不够。2020年算力到位了,GPT-3发布,但它太难用,没有RLHF的加持。2022年初InstructGPT出来,证明了RLHF有效,11月ChatGPT用了更大的模型加上更多的对话数据,做了更完整的RLHF对齐,配上足够的推理算力支撑大规模用户——四根柱子第一次同时到位。

柱子关键节点如果缺少它
① 架构(Transformer) 2017年论文发布 无法并行扩展,规模上不去
② 数据规模 互联网爬取+清洗体系成熟 模型知识面窄,泛化能力差
③ 算力飞跃 A100发布+大规模GPU集群 训练成本高到无法承担
④ 训练方法(RLHF) InstructGPT 2022年1月 模型能力强但不好用,难以落地

一个让工程师不舒服的真相

了解了这四根柱子,有一件事会让做工程的人感到不太舒服:这里面最重要的突破,并不是某个精妙的算法创新,而是"规模"本身。Transformer架构在数学上并不比此前的方法复杂多少;RLHF的原理也不新鲜,强化学习早在1990年代就有了;数据更是直接爬互联网。真正让一切成立的,是把足够大的架构、足够多的数据、足够强的算力、足够好的对齐方法堆在一起,然后等待涌现出现。

Sutton在《苦涩的教训》里说过的那句话,在这里又一次得到了验证:不是更聪明的算法赢了,而是更愿意堆规模的方法赢了。这不意味着算法不重要,而是说在这个时代,能把规模堆起来的人,比能想出精巧算法的人,先走到了终点

四根柱子的本质:不是"发明",而是"组装"

Transformer之前的技术都存在了很多年。注意力机制2015年就有论文了,强化学习是1990年代的产物,互联网爬虫更是更早的技术。OpenAI(和谷歌、Meta)做的事情,不是发明了某个全新的原理,而是把所有这些零件同时推到了极限,组装在一起,然后等待临界点的到来。

这不是贬低,这是一种非常重要的工程能力——知道哪些零件值得一起堆,以及什么时候堆,本身就是判断力。

为什么是OpenAI:大公司的围墙,和一群人的赌注

OpenAI · 历史转折

2022年12月,谷歌内部发出了一封不寻常的警报通知,主题被称为"Code Red"——红色警报。起因是一件看起来不算大的事:一家叫 OpenAI 的小公司,把一个叫 ChatGPT 的聊天机器人挂到了网上,五天内用户突破100万。Sundar Pichai(谷歌CEO)随即取消年假,召集高层紧急会议,重新分配 AI 产品团队的资源和优先级。谷歌慌了。

这件事让外界困惑:为什么谷歌自己没做出 ChatGPT?谷歌拥有的 AI 人才可能是全球最多的——DeepMind、Google Brain、谷歌翻译团队,以及写出 Transformer 论文的那批研究者,几乎都在谷歌的屋顶下工作。谷歌不缺技术,不缺数据,不缺算力。它缺的是一个让人尴尬的东西:动机。

谷歌的两难困境:创新者困境的教科书案例

谷歌搜索广告贡献了 Alphabet 超过 56% 的收入,加上 YouTube 广告接近 80%。搜索的商业模式是:用户问问题 → 谷歌展示广告 → 用户点广告 → 谷歌赚钱。但如果换成对话式 AI,用户直接得到答案,就不需要点广告了。Sundar Pichai 曾说:"一个聊天机器人对大公司来说是很大的声誉风险。"这话说的是安全问题,但可以反过来读:一旦做成了,谷歌自己的搜索广告就开始动摇。这就是"创新者困境"——当你的主营业务越成功,你就越难主动颠覆它。

OpenAI 不一样。它 2015 年 12 月由伊隆·马斯克、山姆·奥特曼、格雷格·布罗克曼、伊利亚·苏茨克维等人联合创立,最初定位是"非营利性 AI 安全研究机构",初始捐款承诺超过 10 亿美元。创始团队里很多人来自谷歌和 DeepMind,他们很清楚技术上可以做什么,也很清楚大公司为什么不会做。2019年微软投了 10 亿美元,2023年追投 100 亿——不是出于慈善,而是因为 Bing 在谷歌面前毫无胜算,OpenAI 是微软唯一的翻盘机会。

OpenAI 关键节点
2015马斯克、奥特曼等联合创立,非营利定位,初始捐款10亿美元
2019微软投资10亿美元;GPT-2发布,OpenAI自己因"太危险"延迟全量发布
2020GPT-3发布,1750亿参数,业界震动;但 API 封闭,普通人用不到
2022.1InstructGPT 发布,RLHF 被证明有效;同年 DALL-E 2 震撼图像生成领域
2022.11ChatGPT 上线——5天100万用户,2个月1亿用户,史上增长最快的消费级产品
2023.1微软追投100亿;谷歌宣布"Code Red",紧急推出 Bard(后改名 Gemini)

那么,如果没有 OpenAI,这件事会发生吗?答案很可能是:会,只是晚一两年。谷歌有 LaMDA,Meta 有 LLaMA 的前身,Anthropic(由 OpenAI 前高管创立)2021年就已经成立。技术栈都在,研究者都在,资本也在。OpenAI 真正的贡献不是"发明了 ChatGPT",而是做了一件大公司很难做到的事:把一个还不够完美的产品,免费放到了消费者面前,让全世界 1 亿人在两个月内亲身感受到了边界在哪里。

大公司的围墙,和小团队的赌注

谷歌没做出 ChatGPT,不是因为不聪明,而是因为它有太多东西可以失去。OpenAI 做出来了,不是因为特别天才,而是因为它的商业结构里没有那道必须守住的门。历史上每一次技术代际更迭,几乎都遵循同一个模式:颠覆者往往不是最强的那个,而是利益牵绊最少的那个

这个规律,你在宇树 vs 波士顿动力、短视频 vs 长视频,乃至每一个被打翻的行业里,都能找到同样的剧本。