第二章 · Part 1 认识AI

AI的前世今生
普通人该怎么理解

从图灵的问题，到三条赛道七十年后的汇合——大模型不是凭空出现的，它是一段漫长积累在某一刻突然引爆的结果。

一句话结论：AI不是一条直线，而是视觉、语言、游戏三条并行赛道，在2017年的Transformer这个节点汇合，才有了今天的大模型。

AI发展里程碑 · 1950—2024

小节一

从图灵的问题说起

规则时代 · 1950s—1980s

1950年，图灵在一篇名为《计算机器与智能》的论文里提出了一个问题："机器能思考吗？"他没有直接回答，而是设计了一个测试：如果你和一台机器通过文字对话，却无法判断对方是人还是机器，那这台机器就算通过了测试。这就是图灵测试，一个被争论了七十年却从未真正被解决的问题——它不是一个技术标准，而是AI这个领域的精神起点。

六年后的1956年，一批科学家聚在美国新罕布什尔州的达特茅斯学院，开了一个夏季研讨会。会议的发起人之一麦卡锡在申请书里正式写下了"人工智能"这个词。他们当时非常乐观，觉得二十年内就能造出具有真正智能的机器。这种乐观很快被现实打脸——但这次会议，正式宣告了一个新学科的诞生。

历史案例

那个时代的AI走的是一条直觉上最符合逻辑的路：把人类专家的知识翻译成规则，塞进计算机。1966年，MIT的ELIZA程序能模拟心理咨询师和人对话——它没有任何理解能力，只是在套用固定的句式模板，碰到"我很难过"就回答"为什么你觉得难过？"。有趣的是，很多使用者明知道它是程序，还是会产生真实的情感依附。1972年的医疗诊断系统MYCIN则更为精密，内置了600多条"如果……那么……"的推理规则，诊断细菌感染的准确率甚至在某些实验中超过了住院医生——但它完全不知道"生病"是什么感受。

到了1980年代，"专家系统"成了整个行业的风口。大量企业投入资金，把各个领域的专家知识编码进计算机：有为法律专业设计的系统，有为地质勘探设计的系统，有为工厂设备故障诊断设计的系统。一时间，AI似乎距离真正落地只有一步之遥。

但问题很快暴露出来：规则写不完。世界的复杂性超出了任何规则集的覆盖范围。一个法律专家系统可能需要十万条规则，而这些规则之间还会互相矛盾，修改一条可能引发连锁反应。更致命的是，规则系统无法处理它没见过的情况——一旦输入超出规则的设计范围，系统就会给出荒谬的答案。1987年前后，这波热潮在无数企业的亏损中退去，AI进入了第一次"寒冬"。

普通人的感知

这个阶段几乎感知不到AI。最接近的体验可能是银行柜员机（ATM）——它只能处理固定操作，输错密码超过三次就锁死，因为背后就是一套死板的判断规则。AI这个词，对普通人来说是科幻小说里才有的东西。

小节二

换一条路——让机器从数据里找规律

统计学习时代 · 1990s—2010s

寒冬期间，一部分研究者悄悄转换了思路。既然规则写不完，那就不写规则——把数据喂给机器，让它自己从数据里归纳。这个思路有个名字，叫机器学习。它的核心逻辑是：给机器看足够多的正例和反例，让它自己发现其中的统计规律，并用这些规律来预测新的输入。

容易混淆的例子

1997年，IBM的深蓝计算机击败了国际象棋世界冠军卡斯帕罗夫，轰动全球。但深蓝其实不是典型的机器学习系统——它更像是一台极其强大的搜索引擎，通过穷举每一步棋的所有可能并用评估函数打分来选择最优走法。这是工程上的胜利，是计算能力的胜利，而不是机器真正"学会"了下棋。

真正代表这个时代精神的，是那些默默运行在后台的算法：支持向量机、随机森林、梯度提升树。这些算法不依赖专家规则，而是从数据中寻找统计边界。它们至今仍在运行着大量实际业务——银行的信用评分模型、电商的价格预测系统、保险公司的风险评估模型，背后大概率是某种梯度提升算法。在结构化数据（也就是表格形式的数据）处理上，它们的效果甚至不输于深度学习。

这个时代的机器学习有一个核心瓶颈，叫做特征工程。机器能从数据里找规律，但你得先告诉它从哪些角度去看这份数据。判断一封邮件是否垃圾邮件，你得先手动设计"发件人地址是否可疑"、"关键词出现频率"、"邮件长度"这些维度——这些判断，仍然是人来做的。机器负责拟合数据，人负责理解业务。从某种意义上说，这个时代的AI仍然是人类思维的延伸，只是更快、更准确地执行了人类的判断。

普通人的感知

这个阶段开始能感受到AI了，只是不知道那叫AI。淘宝"猜你喜欢"越来越准、网易邮箱垃圾邮件少了、Google搜索结果越来越相关——背后都是统计学习算法在工作。最直观的感受是：产品变聪明了，但你还是只能被动接受推荐，没办法主动"指挥"它。

四代AI核心特征对比

时代	核心逻辑	典型代表	最大局限
规则时代	人写规则，机器执行	MYCIN、专家系统	规则写不完，无法泛化
统计学习	数据喂机器，机器找规律	随机森林、XGBoost	特征工程依赖人工设计
深度学习	神经网络自动提取特征	AlexNet、AlphaGo	需要海量标注数据
大模型	规模带来涌现，通用能力	GPT-4、Claude、Gemini	算力成本极高、幻觉问题

小节三

深度学习时代——三条赛道同时爆发

深度学习爆发 · 2012—2017

2012年是一个分水岭。那一年，一个叫AlexNet的深度神经网络在ImageNet图像识别大赛上以压倒性的优势获胜——错误率从此前最优的26%一下降到了15%。这不是技术上的小幅改进，是质的跃迁。在这之前，研究者已经断断续续地研究神经网络超过五十年；在这之后，几乎所有主流AI研究都转向了深度学习。

但接下来这五年里，AI的进展并不是沿着一条路走的。深度学习像一股浪潮，同时涌进了三个完全不同的研究方向，各自都产出了改变历史的成果，然后在2017年的同一个节点汇合。

三条赛道的共同本质

尽管研究方向不同，这三条赛道在数学上做的是同一件事：找一个函数 f(x) = y，把输入映射到正确的输出。视觉赛道的输入是像素、输出是"这是一只猫"；语言赛道的输入是一段句子、输出是下一个词；游戏赛道的输入是棋盘状态、输出是最优落子。深度学习的真正突破不是换了一种数学，而是多层神经网络能自动学习这个映射的中间表示——你不需要告诉它"眼睛是椭圆、鼻子是三角"，它自己会从像素层面一层一层往上构建出这些概念。自动提取层级特征，是之前所有方法都做不到的。

普通人的感知

这个阶段AI开始"看得懂"了。手机解锁从输密码变成刷脸（2017年iPhone X）；Siri和小爱同学开始能听懂口语；Google翻译质量突然变好——你第一次觉得机器好像真的理解了语言。但你还是只能用产品，没法直接和AI对话。

深度学习时代：三条并行赛道汇合示意

三条赛道代表事件一览

时间	👁 视觉赛道	💬 语言赛道	🎮 游戏赛道
2012	AlexNet，错误率从26%→15%	—	—
2013	—	Word2Vec，语义向量	DQN玩Atari游戏
2014–15	VGG / GoogLeNet	Seq2Seq / 谷歌神经翻译	—
2015	ResNet 152层，超越人类	—	—
2016	—	—	AlphaGo击败李世石
2017	🔑 Transformer 论文发布——三条赛道汇合

小节四

Transformer——三条赛道在这里汇合

大模型时代 · 2017—至今

2017年，谷歌发表了一篇论文，标题直接叫《Attention is All You Need》——注意力就是你需要的全部。这个标题既是论文内容的描述，也像是一句宣言。论文提出的Transformer架构，本来只是为了解决机器翻译问题，但它的影响力远远超出了语言处理的边界。

Transformer的核心创新是注意力机制。传统的神经网络处理语言时，会按顺序一个字一个字地读，后面的词对前面词的记忆会逐渐衰减。Transformer打破了这个限制——它同时看所有词，并学会判断每个词应该对其他哪些词给予更多"注意力"。这让模型处理长文本时不再丢失上下文，也让并行计算成为可能，直接解锁了大规模训练的技术瓶颈。

通俗类比

传统模型读文章像背诵：一个字一个字念，念到后面前面的细节已经模糊了。Transformer读文章更像人：整页扫一眼，然后在需要理解某个词的时候，能精准地跳回去参考相关的词。这种"全局注意力"让模型的理解能力产生了质的飞跃。

接下来的事情发生得非常快。2018年，谷歌用Transformer做出了BERT，"预训练+微调"的模式出现了——先在海量通用文本上训练一个大模型，再针对具体任务做少量调整，这让AI能力的部署成本大幅下降。同年，OpenAI推出GPT-1，走的是另一条路：不是理解，而是生成，预测下一个词。

然后是规模的故事。GPT-1有1.17亿参数，GPT-2有15亿，2020年的GPT-3达到了1750亿。但参数量增长本身不是重点——重点是每一次跃升，都带来了一批没有被明确训练过的新能力。研究者给这个现象起了个名字，叫涌现（Emergence）。

⚡ 科学界最震惊的事：没人知道为什么

OpenAI训练GPT-3的目标只有一个：预测下一个词。他们给模型喂了海量文本，让它反复做填空题。就这一个任务，没有别的。

但当研究员开始测试时，GPT-3能做三位数加法、能用法语回答英文问题、能写出从未见过格式的代码、能解释隐喻、能续写故事。这些能力没有人设计，也没有出现在训练目标里——它们就这么自己长出来了。

更令人不安的是：没有任何人能解释为什么。你往神经网络里看，看到的是数以千亿计的数字在互相运算。这些数字代表什么、它们如何组织出"理解语言"的能力——没人说得清。这就是AI领域最著名的"黑箱问题"（Black Box Problem）。我们能观察到输入和输出，能看到它有效，但打不开这个箱子。

这件事在学术界引发了真实的震动。图灵奖得主杰弗里·辛顿（Geoffrey Hinton）——深度学习三位奠基人之一，被称为"AI教父"——在2023年辞去了谷歌的职位。他公开表示，他开始后悔自己一生的工作，因为他们正在建造一种自己无法完全理解的技术。他不是在夸张：即使是亲手设计了这套系统的人，也无法预测它在新的规模下会"长出"什么能力。

对普通人来说，黑箱问题可以这样理解：你雇了一个员工，他交出来的结果又快又好，但如果你问他"你是怎么想到这个答案的"，他说"我也不知道，就是想到了"。大多数时候这不是问题；但偶尔他会给出一个完全错误的答案，而且错得极其自信，你也不知道怎么提前判断哪次会出错。这就是今天所有大模型都有的局限——涌现带来了能力，也带来了不可预测性。

GPT系列参数规模与涌现能力

与此同时，视觉赛道的研究者把Transformer搬到了图像上，做出了Vision Transformer；生成赛道出现了DALL-E和Stable Diffusion。三条独立赛道在Transformer这个统一架构下开始合并。今天的GPT-4、Claude、Gemini，既能看图、又能写字、还能写代码——这不是三个功能的简单堆叠，而是三条赛道七十年积累在同一个框架里融合的结果。

小节五

那些真正改变一切的里程碑时刻

把AI七十年的历史压缩成几个节点，真正的转折其实只有那么几次：1956年达特茅斯会议命名了这个领域；2012年AlexNet证明深度学习的路是通的；2017年Transformer提供了统一所有方向的架构基础；2022年11月ChatGPT的发布，让普通人第一次用身体感受到了AI能力的边界在哪里。

5天

ChatGPT用户
突破100万

2个月

用户突破
1亿

3.5年

Netflix达到
同等规模

72年

从图灵提问到
ChatGPT震动全球

ChatGPT上线的速度不是因为营销做得好，而是因为这次人们真的感受到了不同——它不是一个更聪明的搜索引擎，也不是一个更花哨的问答系统，而是一个能接住几乎任意问题并给出有用回答的系统。这种"接住"的感觉，是七十年技术积累带来的，也是三条赛道汇合后才出现的新能力。

如果你看这段历史里真正关键的技术节点，会发现核心的突破其实发生在最近十年，甚至最近五年。技术积累有它自己的节奏，不是匀速前进的——它会在某个临界点突然加速，然后让所有人都来不及反应。ChatGPT就是那个让所有人措手不及的时刻。

苦涩的教训：精心设计败给了暴力堆砌

ChatGPT的出现让很多严肃的AI研究者经历了一种复杂的情绪，有个词精准地描述了这种感受——"苦涩的教训"（The Bitter Lesson）。这个词来自强化学习先驱Richard Sutton在2019年写的一篇短文。他总结了七十年AI研究最令人不舒服的规律：每一次，专家们精心设计的领域知识系统，最终都输给了那些什么领域知识都不用、只是把数据和算力堆得更大的通用方法。他说这个教训是"苦涩的"，因为研究者反复相信领域知识能带来优势，然后反复被计算规模打脸。

ChatGPT把这个规律推向了极致。自然语言处理（NLP）领域有一大批研究者，花了十年甚至二十年，精心研究语法树的解析、语义角色的标注、机器翻译的概率模型——每一步都有精妙的数学推导，每篇论文都是对某个子问题的深度钻研。然后OpenAI做了一件粗暴的事：从互联网上抓来海量文字，让模型反复做一件事——猜下一个词。规模足够大之后，所有那些被精心解决的子问题全部被一次性扫平。你精心构建的方程，被一堆数据给淹了。

同样的剧情，在机器人领域重演了一遍

波士顿动力成立于1992年，从MIT衍生而出，是全球机器人领域公认的天花板。他们用三十年和顶尖的控制理论专家，精心推导机器人每一个关节的力矩控制、每一步的平衡算法。他们的Spot机器狗，定价74,500美元。

2016年，一个叫王兴兴的中国研究生，从大疆离职后创办了宇树科技。他走的路完全不同：用便宜的电机和现成零件，在虚拟仿真环境里同时开8000多个并行模拟，让机器人自己反复摔跤爬起来，训练出来的策略直接迁移到真实机器上。不需要推导方程，让强化学习自己找到解法。

2024年，宇树G1机器人侧空翻的视频疯传。售价：99,000元人民币，约合13,600美元——波士顿动力Atlas定价约320,000美元的二十分之一。同年，宇树占据了全球四足机器人市场将近70%的份额。马斯克公开点赞。

打败你的，不一定是更聪明的方案。

可能只是一个数据更多、算力更大、更不怕堆的对手。大模型如此，机器人如此。这个时代最反直觉的规律是：在某些问题上，与其花时间找到"正确的方法"，不如先把暴力方法堆到它的极限，再说别的。

（如果这还不够苦涩：宇树在2024年底把全部训练代码完全开源了。现在任何人都可以免费复制他们的方法。）

AI的历史是一条从规则到统计、从统计到深度学习、从深度学习到大模型的演化链。每一代都不是在取代上一代，而是在上一代的基础上解锁了新的能力层。真正的质变发生了两次：2012年AlexNet证明深度学习可行，2017年Transformer统一了所有方向。而2022年ChatGPT的出现，只是把这场七十年的技术积累，第一次摆在了所有普通人面前。

→ 下一章：为什么Transformer和大模型成了分水岭

AI的前世今生普通人该怎么理解

从图灵的问题说起

换一条路——让机器从数据里找规律

深度学习时代——三条赛道同时爆发

Transformer——三条赛道在这里汇合

那些真正改变一切的里程碑时刻

苦涩的教训：精心设计败给了暴力堆砌

AI的前世今生
普通人该怎么理解