第二章 · Part 1 认识AI

AI的前世今生
普通人该怎么理解

从图灵的问题,到三条赛道七十年后的汇合——大模型不是凭空出现的,它是一段漫长积累在某一刻突然引爆的结果。

一句话结论:AI不是一条直线,而是视觉、语言、游戏三条并行赛道,在2017年的Transformer这个节点汇合,才有了今天的大模型。
AI发展里程碑 · 1950—2024
规则时代 1950s–1980s 统计学习 1990s–2010s 深度学习爆发 2012–2017 大模型时代 2017—至今 1950 图灵测试提出 1956 达特茅斯会议 1972 MYCIN专家系统 1997 深蓝击败卡斯帕罗夫 2006 深度学习复兴 2012 AlexNet ⚡ 分水岭 2013 Word2Vec 2016 AlphaGo击败李世石 2017 Transformer论文 🔑 2020 GPT-3 涌现能力 2022.11 ChatGPT 🌍 全球震动 2024 多模态大模型普及

从图灵的问题说起

规则时代 · 1950s—1980s

1950年,图灵在一篇名为《计算机器与智能》的论文里提出了一个问题:"机器能思考吗?"他没有直接回答,而是设计了一个测试:如果你和一台机器通过文字对话,却无法判断对方是人还是机器,那这台机器就算通过了测试。这就是图灵测试,一个被争论了七十年却从未真正被解决的问题——它不是一个技术标准,而是AI这个领域的精神起点。

六年后的1956年,一批科学家聚在美国新罕布什尔州的达特茅斯学院,开了一个夏季研讨会。会议的发起人之一麦卡锡在申请书里正式写下了"人工智能"这个词。他们当时非常乐观,觉得二十年内就能造出具有真正智能的机器。这种乐观很快被现实打脸——但这次会议,正式宣告了一个新学科的诞生。

历史案例
那个时代的AI走的是一条直觉上最符合逻辑的路:把人类专家的知识翻译成规则,塞进计算机。1966年,MIT的ELIZA程序能模拟心理咨询师和人对话——它没有任何理解能力,只是在套用固定的句式模板,碰到"我很难过"就回答"为什么你觉得难过?"。有趣的是,很多使用者明知道它是程序,还是会产生真实的情感依附。1972年的医疗诊断系统MYCIN则更为精密,内置了600多条"如果……那么……"的推理规则,诊断细菌感染的准确率甚至在某些实验中超过了住院医生——但它完全不知道"生病"是什么感受。

到了1980年代,"专家系统"成了整个行业的风口。大量企业投入资金,把各个领域的专家知识编码进计算机:有为法律专业设计的系统,有为地质勘探设计的系统,有为工厂设备故障诊断设计的系统。一时间,AI似乎距离真正落地只有一步之遥。

但问题很快暴露出来:规则写不完。世界的复杂性超出了任何规则集的覆盖范围。一个法律专家系统可能需要十万条规则,而这些规则之间还会互相矛盾,修改一条可能引发连锁反应。更致命的是,规则系统无法处理它没见过的情况——一旦输入超出规则的设计范围,系统就会给出荒谬的答案。1987年前后,这波热潮在无数企业的亏损中退去,AI进入了第一次"寒冬"。

普通人的感知

这个阶段几乎感知不到AI。最接近的体验可能是银行柜员机(ATM)——它只能处理固定操作,输错密码超过三次就锁死,因为背后就是一套死板的判断规则。AI这个词,对普通人来说是科幻小说里才有的东西。

换一条路——让机器从数据里找规律

统计学习时代 · 1990s—2010s

寒冬期间,一部分研究者悄悄转换了思路。既然规则写不完,那就不写规则——把数据喂给机器,让它自己从数据里归纳。这个思路有个名字,叫机器学习。它的核心逻辑是:给机器看足够多的正例和反例,让它自己发现其中的统计规律,并用这些规律来预测新的输入。

容易混淆的例子
1997年,IBM的深蓝计算机击败了国际象棋世界冠军卡斯帕罗夫,轰动全球。但深蓝其实不是典型的机器学习系统——它更像是一台极其强大的搜索引擎,通过穷举每一步棋的所有可能并用评估函数打分来选择最优走法。这是工程上的胜利,是计算能力的胜利,而不是机器真正"学会"了下棋。

真正代表这个时代精神的,是那些默默运行在后台的算法:支持向量机、随机森林、梯度提升树。这些算法不依赖专家规则,而是从数据中寻找统计边界。它们至今仍在运行着大量实际业务——银行的信用评分模型、电商的价格预测系统、保险公司的风险评估模型,背后大概率是某种梯度提升算法。在结构化数据(也就是表格形式的数据)处理上,它们的效果甚至不输于深度学习。

这个时代的机器学习有一个核心瓶颈,叫做特征工程。机器能从数据里找规律,但你得先告诉它从哪些角度去看这份数据。判断一封邮件是否垃圾邮件,你得先手动设计"发件人地址是否可疑"、"关键词出现频率"、"邮件长度"这些维度——这些判断,仍然是人来做的。机器负责拟合数据,人负责理解业务。从某种意义上说,这个时代的AI仍然是人类思维的延伸,只是更快、更准确地执行了人类的判断。

普通人的感知

这个阶段开始能感受到AI了,只是不知道那叫AI。淘宝"猜你喜欢"越来越准、网易邮箱垃圾邮件少了、Google搜索结果越来越相关——背后都是统计学习算法在工作。最直观的感受是:产品变聪明了,但你还是只能被动接受推荐,没办法主动"指挥"它。

四代AI核心特征对比
时代 核心逻辑 典型代表 最大局限
规则时代 人写规则,机器执行 MYCIN、专家系统 规则写不完,无法泛化
统计学习 数据喂机器,机器找规律 随机森林、XGBoost 特征工程依赖人工设计
深度学习 神经网络自动提取特征 AlexNet、AlphaGo 需要海量标注数据
大模型 规模带来涌现,通用能力 GPT-4、Claude、Gemini 算力成本极高、幻觉问题

深度学习时代——三条赛道同时爆发

深度学习爆发 · 2012—2017

2012年是一个分水岭。那一年,一个叫AlexNet的深度神经网络在ImageNet图像识别大赛上以压倒性的优势获胜——错误率从此前最优的26%一下降到了15%。这不是技术上的小幅改进,是质的跃迁。在这之前,研究者已经断断续续地研究神经网络超过五十年;在这之后,几乎所有主流AI研究都转向了深度学习。

但接下来这五年里,AI的进展并不是沿着一条路走的。深度学习像一股浪潮,同时涌进了三个完全不同的研究方向,各自都产出了改变历史的成果,然后在2017年的同一个节点汇合。

三条赛道的共同本质
尽管研究方向不同,这三条赛道在数学上做的是同一件事:找一个函数 f(x) = y,把输入映射到正确的输出。视觉赛道的输入是像素、输出是"这是一只猫";语言赛道的输入是一段句子、输出是下一个词;游戏赛道的输入是棋盘状态、输出是最优落子。深度学习的真正突破不是换了一种数学,而是多层神经网络能自动学习这个映射的中间表示——你不需要告诉它"眼睛是椭圆、鼻子是三角",它自己会从像素层面一层一层往上构建出这些概念。自动提取层级特征,是之前所有方法都做不到的。
普通人的感知

这个阶段AI开始"看得懂"了。手机解锁从输密码变成刷脸(2017年iPhone X);Siri和小爱同学开始能听懂口语;Google翻译质量突然变好——你第一次觉得机器好像真的理解了语言。但你还是只能用产品,没法直接和AI对话。

深度学习时代:三条并行赛道汇合示意
👁 视觉赛道 💬 语言赛道 🎮 游戏赛道 2012 AlexNet 图像识别错误率大跌 2015 ResNet 152层 识别准确率超越人类 → 人脸识别 / 自动驾驶 感知系统的基础 2013 Word2Vec 文字变成语义向量 2014–15 Seq2Seq 谷歌翻译质量跃升 → 机器翻译 / 文本生成 语言处理初步成熟 2013 DQN玩Atari 强化学习首次突破 2016 AlphaGo击败李世石 复杂策略学习能力证明 → AlphaFold蛋白质折叠 科学发现新方向 2017 Transformer 《Attention is All You Need》 → GPT · BERT · 多模态大模型
三条赛道代表事件一览
时间👁 视觉赛道💬 语言赛道🎮 游戏赛道
2012 AlexNet,错误率从26%→15%
2013 Word2Vec,语义向量 DQN玩Atari游戏
2014–15 VGG / GoogLeNet Seq2Seq / 谷歌神经翻译
2015 ResNet 152层,超越人类
2016 AlphaGo击败李世石
2017 🔑 Transformer 论文发布——三条赛道汇合

Transformer——三条赛道在这里汇合

大模型时代 · 2017—至今

2017年,谷歌发表了一篇论文,标题直接叫《Attention is All You Need》——注意力就是你需要的全部。这个标题既是论文内容的描述,也像是一句宣言。论文提出的Transformer架构,本来只是为了解决机器翻译问题,但它的影响力远远超出了语言处理的边界。

Transformer的核心创新是注意力机制。传统的神经网络处理语言时,会按顺序一个字一个字地读,后面的词对前面词的记忆会逐渐衰减。Transformer打破了这个限制——它同时看所有词,并学会判断每个词应该对其他哪些词给予更多"注意力"。这让模型处理长文本时不再丢失上下文,也让并行计算成为可能,直接解锁了大规模训练的技术瓶颈。

通俗类比
传统模型读文章像背诵:一个字一个字念,念到后面前面的细节已经模糊了。Transformer读文章更像人:整页扫一眼,然后在需要理解某个词的时候,能精准地跳回去参考相关的词。这种"全局注意力"让模型的理解能力产生了质的飞跃。

接下来的事情发生得非常快。2018年,谷歌用Transformer做出了BERT,"预训练+微调"的模式出现了——先在海量通用文本上训练一个大模型,再针对具体任务做少量调整,这让AI能力的部署成本大幅下降。同年,OpenAI推出GPT-1,走的是另一条路:不是理解,而是生成,预测下一个词。

然后是规模的故事。GPT-1有1.17亿参数,GPT-2有15亿,2020年的GPT-3达到了1750亿。但参数量增长本身不是重点——重点是每一次跃升,都带来了一批没有被明确训练过的新能力。研究者给这个现象起了个名字,叫涌现(Emergence)

⚡ 科学界最震惊的事:没人知道为什么

OpenAI训练GPT-3的目标只有一个:预测下一个词。他们给模型喂了海量文本,让它反复做填空题。就这一个任务,没有别的。

但当研究员开始测试时,GPT-3能做三位数加法、能用法语回答英文问题、能写出从未见过格式的代码、能解释隐喻、能续写故事。这些能力没有人设计,也没有出现在训练目标里——它们就这么自己长出来了

更令人不安的是:没有任何人能解释为什么。你往神经网络里看,看到的是数以千亿计的数字在互相运算。这些数字代表什么、它们如何组织出"理解语言"的能力——没人说得清。这就是AI领域最著名的"黑箱问题"(Black Box Problem)。我们能观察到输入和输出,能看到它有效,但打不开这个箱子。

这件事在学术界引发了真实的震动。图灵奖得主杰弗里·辛顿(Geoffrey Hinton)——深度学习三位奠基人之一,被称为"AI教父"——在2023年辞去了谷歌的职位。他公开表示,他开始后悔自己一生的工作,因为他们正在建造一种自己无法完全理解的技术。他不是在夸张:即使是亲手设计了这套系统的人,也无法预测它在新的规模下会"长出"什么能力。

对普通人来说,黑箱问题可以这样理解:你雇了一个员工,他交出来的结果又快又好,但如果你问他"你是怎么想到这个答案的",他说"我也不知道,就是想到了"。大多数时候这不是问题;但偶尔他会给出一个完全错误的答案,而且错得极其自信,你也不知道怎么提前判断哪次会出错。这就是今天所有大模型都有的局限——涌现带来了能力,也带来了不可预测性

GPT系列参数规模与涌现能力
参数量 1.17亿 GPT-1 (2018) 基本语言生成 15亿 GPT-2 (2019) 连贯长文本生成 1750亿 GPT-3 (2020) ⚡ Few-shot推理涌现 万亿级 (估计) GPT-4 (2023) 🌟 多模态+复杂推理 ← 涌现临界点

与此同时,视觉赛道的研究者把Transformer搬到了图像上,做出了Vision Transformer;生成赛道出现了DALL-E和Stable Diffusion。三条独立赛道在Transformer这个统一架构下开始合并。今天的GPT-4、Claude、Gemini,既能看图、又能写字、还能写代码——这不是三个功能的简单堆叠,而是三条赛道七十年积累在同一个框架里融合的结果。

那些真正改变一切的里程碑时刻

把AI七十年的历史压缩成几个节点,真正的转折其实只有那么几次:1956年达特茅斯会议命名了这个领域;2012年AlexNet证明深度学习的路是通的;2017年Transformer提供了统一所有方向的架构基础;2022年11月ChatGPT的发布,让普通人第一次用身体感受到了AI能力的边界在哪里。

5天
ChatGPT用户
突破100万
2个月
用户突破
1亿
3.5年
Netflix达到
同等规模
72年
从图灵提问到
ChatGPT震动全球

ChatGPT上线的速度不是因为营销做得好,而是因为这次人们真的感受到了不同——它不是一个更聪明的搜索引擎,也不是一个更花哨的问答系统,而是一个能接住几乎任意问题并给出有用回答的系统。这种"接住"的感觉,是七十年技术积累带来的,也是三条赛道汇合后才出现的新能力。

如果你看这段历史里真正关键的技术节点,会发现核心的突破其实发生在最近十年,甚至最近五年。技术积累有它自己的节奏,不是匀速前进的——它会在某个临界点突然加速,然后让所有人都来不及反应。ChatGPT就是那个让所有人措手不及的时刻。

苦涩的教训:精心设计败给了暴力堆砌

ChatGPT的出现让很多严肃的AI研究者经历了一种复杂的情绪,有个词精准地描述了这种感受——"苦涩的教训"(The Bitter Lesson)。这个词来自强化学习先驱Richard Sutton在2019年写的一篇短文。他总结了七十年AI研究最令人不舒服的规律:每一次,专家们精心设计的领域知识系统,最终都输给了那些什么领域知识都不用、只是把数据和算力堆得更大的通用方法。他说这个教训是"苦涩的",因为研究者反复相信领域知识能带来优势,然后反复被计算规模打脸。

ChatGPT把这个规律推向了极致。自然语言处理(NLP)领域有一大批研究者,花了十年甚至二十年,精心研究语法树的解析、语义角色的标注、机器翻译的概率模型——每一步都有精妙的数学推导,每篇论文都是对某个子问题的深度钻研。然后OpenAI做了一件粗暴的事:从互联网上抓来海量文字,让模型反复做一件事——猜下一个词。规模足够大之后,所有那些被精心解决的子问题全部被一次性扫平。你精心构建的方程,被一堆数据给淹了。

同样的剧情,在机器人领域重演了一遍

波士顿动力成立于1992年,从MIT衍生而出,是全球机器人领域公认的天花板。他们用三十年和顶尖的控制理论专家,精心推导机器人每一个关节的力矩控制、每一步的平衡算法。他们的Spot机器狗,定价74,500美元。

2016年,一个叫王兴兴的中国研究生,从大疆离职后创办了宇树科技。他走的路完全不同:用便宜的电机和现成零件,在虚拟仿真环境里同时开8000多个并行模拟,让机器人自己反复摔跤爬起来,训练出来的策略直接迁移到真实机器上。不需要推导方程,让强化学习自己找到解法。

2024年,宇树G1机器人侧空翻的视频疯传。售价:99,000元人民币,约合13,600美元——波士顿动力Atlas定价约320,000美元的二十分之一。同年,宇树占据了全球四足机器人市场将近70%的份额。马斯克公开点赞。

打败你的,不一定是更聪明的方案。

可能只是一个数据更多、算力更大、更不怕堆的对手。大模型如此,机器人如此。这个时代最反直觉的规律是:在某些问题上,与其花时间找到"正确的方法",不如先把暴力方法堆到它的极限,再说别的。

(如果这还不够苦涩:宇树在2024年底把全部训练代码完全开源了。现在任何人都可以免费复制他们的方法。)