从图灵的问题,到三条赛道七十年后的汇合——大模型不是凭空出现的,它是一段漫长积累在某一刻突然引爆的结果。
1950年,图灵在一篇名为《计算机器与智能》的论文里提出了一个问题:"机器能思考吗?"他没有直接回答,而是设计了一个测试:如果你和一台机器通过文字对话,却无法判断对方是人还是机器,那这台机器就算通过了测试。这就是图灵测试,一个被争论了七十年却从未真正被解决的问题——它不是一个技术标准,而是AI这个领域的精神起点。
六年后的1956年,一批科学家聚在美国新罕布什尔州的达特茅斯学院,开了一个夏季研讨会。会议的发起人之一麦卡锡在申请书里正式写下了"人工智能"这个词。他们当时非常乐观,觉得二十年内就能造出具有真正智能的机器。这种乐观很快被现实打脸——但这次会议,正式宣告了一个新学科的诞生。
到了1980年代,"专家系统"成了整个行业的风口。大量企业投入资金,把各个领域的专家知识编码进计算机:有为法律专业设计的系统,有为地质勘探设计的系统,有为工厂设备故障诊断设计的系统。一时间,AI似乎距离真正落地只有一步之遥。
但问题很快暴露出来:规则写不完。世界的复杂性超出了任何规则集的覆盖范围。一个法律专家系统可能需要十万条规则,而这些规则之间还会互相矛盾,修改一条可能引发连锁反应。更致命的是,规则系统无法处理它没见过的情况——一旦输入超出规则的设计范围,系统就会给出荒谬的答案。1987年前后,这波热潮在无数企业的亏损中退去,AI进入了第一次"寒冬"。
这个阶段几乎感知不到AI。最接近的体验可能是银行柜员机(ATM)——它只能处理固定操作,输错密码超过三次就锁死,因为背后就是一套死板的判断规则。AI这个词,对普通人来说是科幻小说里才有的东西。
寒冬期间,一部分研究者悄悄转换了思路。既然规则写不完,那就不写规则——把数据喂给机器,让它自己从数据里归纳。这个思路有个名字,叫机器学习。它的核心逻辑是:给机器看足够多的正例和反例,让它自己发现其中的统计规律,并用这些规律来预测新的输入。
真正代表这个时代精神的,是那些默默运行在后台的算法:支持向量机、随机森林、梯度提升树。这些算法不依赖专家规则,而是从数据中寻找统计边界。它们至今仍在运行着大量实际业务——银行的信用评分模型、电商的价格预测系统、保险公司的风险评估模型,背后大概率是某种梯度提升算法。在结构化数据(也就是表格形式的数据)处理上,它们的效果甚至不输于深度学习。
这个时代的机器学习有一个核心瓶颈,叫做特征工程。机器能从数据里找规律,但你得先告诉它从哪些角度去看这份数据。判断一封邮件是否垃圾邮件,你得先手动设计"发件人地址是否可疑"、"关键词出现频率"、"邮件长度"这些维度——这些判断,仍然是人来做的。机器负责拟合数据,人负责理解业务。从某种意义上说,这个时代的AI仍然是人类思维的延伸,只是更快、更准确地执行了人类的判断。
这个阶段开始能感受到AI了,只是不知道那叫AI。淘宝"猜你喜欢"越来越准、网易邮箱垃圾邮件少了、Google搜索结果越来越相关——背后都是统计学习算法在工作。最直观的感受是:产品变聪明了,但你还是只能被动接受推荐,没办法主动"指挥"它。
| 时代 | 核心逻辑 | 典型代表 | 最大局限 |
|---|---|---|---|
| 规则时代 | 人写规则,机器执行 | MYCIN、专家系统 | 规则写不完,无法泛化 |
| 统计学习 | 数据喂机器,机器找规律 | 随机森林、XGBoost | 特征工程依赖人工设计 |
| 深度学习 | 神经网络自动提取特征 | AlexNet、AlphaGo | 需要海量标注数据 |
| 大模型 | 规模带来涌现,通用能力 | GPT-4、Claude、Gemini | 算力成本极高、幻觉问题 |
2012年是一个分水岭。那一年,一个叫AlexNet的深度神经网络在ImageNet图像识别大赛上以压倒性的优势获胜——错误率从此前最优的26%一下降到了15%。这不是技术上的小幅改进,是质的跃迁。在这之前,研究者已经断断续续地研究神经网络超过五十年;在这之后,几乎所有主流AI研究都转向了深度学习。
但接下来这五年里,AI的进展并不是沿着一条路走的。深度学习像一股浪潮,同时涌进了三个完全不同的研究方向,各自都产出了改变历史的成果,然后在2017年的同一个节点汇合。
这个阶段AI开始"看得懂"了。手机解锁从输密码变成刷脸(2017年iPhone X);Siri和小爱同学开始能听懂口语;Google翻译质量突然变好——你第一次觉得机器好像真的理解了语言。但你还是只能用产品,没法直接和AI对话。
| 时间 | 👁 视觉赛道 | 💬 语言赛道 | 🎮 游戏赛道 |
|---|---|---|---|
| 2012 | AlexNet,错误率从26%→15% | — | — |
| 2013 | — | Word2Vec,语义向量 | DQN玩Atari游戏 |
| 2014–15 | VGG / GoogLeNet | Seq2Seq / 谷歌神经翻译 | — |
| 2015 | ResNet 152层,超越人类 | — | — |
| 2016 | — | — | AlphaGo击败李世石 |
| 2017 | 🔑 Transformer 论文发布——三条赛道汇合 | ||
2017年,谷歌发表了一篇论文,标题直接叫《Attention is All You Need》——注意力就是你需要的全部。这个标题既是论文内容的描述,也像是一句宣言。论文提出的Transformer架构,本来只是为了解决机器翻译问题,但它的影响力远远超出了语言处理的边界。
Transformer的核心创新是注意力机制。传统的神经网络处理语言时,会按顺序一个字一个字地读,后面的词对前面词的记忆会逐渐衰减。Transformer打破了这个限制——它同时看所有词,并学会判断每个词应该对其他哪些词给予更多"注意力"。这让模型处理长文本时不再丢失上下文,也让并行计算成为可能,直接解锁了大规模训练的技术瓶颈。
接下来的事情发生得非常快。2018年,谷歌用Transformer做出了BERT,"预训练+微调"的模式出现了——先在海量通用文本上训练一个大模型,再针对具体任务做少量调整,这让AI能力的部署成本大幅下降。同年,OpenAI推出GPT-1,走的是另一条路:不是理解,而是生成,预测下一个词。
然后是规模的故事。GPT-1有1.17亿参数,GPT-2有15亿,2020年的GPT-3达到了1750亿。但参数量增长本身不是重点——重点是每一次跃升,都带来了一批没有被明确训练过的新能力。研究者给这个现象起了个名字,叫涌现(Emergence)。
OpenAI训练GPT-3的目标只有一个:预测下一个词。他们给模型喂了海量文本,让它反复做填空题。就这一个任务,没有别的。
但当研究员开始测试时,GPT-3能做三位数加法、能用法语回答英文问题、能写出从未见过格式的代码、能解释隐喻、能续写故事。这些能力没有人设计,也没有出现在训练目标里——它们就这么自己长出来了。
更令人不安的是:没有任何人能解释为什么。你往神经网络里看,看到的是数以千亿计的数字在互相运算。这些数字代表什么、它们如何组织出"理解语言"的能力——没人说得清。这就是AI领域最著名的"黑箱问题"(Black Box Problem)。我们能观察到输入和输出,能看到它有效,但打不开这个箱子。
这件事在学术界引发了真实的震动。图灵奖得主杰弗里·辛顿(Geoffrey Hinton)——深度学习三位奠基人之一,被称为"AI教父"——在2023年辞去了谷歌的职位。他公开表示,他开始后悔自己一生的工作,因为他们正在建造一种自己无法完全理解的技术。他不是在夸张:即使是亲手设计了这套系统的人,也无法预测它在新的规模下会"长出"什么能力。
对普通人来说,黑箱问题可以这样理解:你雇了一个员工,他交出来的结果又快又好,但如果你问他"你是怎么想到这个答案的",他说"我也不知道,就是想到了"。大多数时候这不是问题;但偶尔他会给出一个完全错误的答案,而且错得极其自信,你也不知道怎么提前判断哪次会出错。这就是今天所有大模型都有的局限——涌现带来了能力,也带来了不可预测性。
与此同时,视觉赛道的研究者把Transformer搬到了图像上,做出了Vision Transformer;生成赛道出现了DALL-E和Stable Diffusion。三条独立赛道在Transformer这个统一架构下开始合并。今天的GPT-4、Claude、Gemini,既能看图、又能写字、还能写代码——这不是三个功能的简单堆叠,而是三条赛道七十年积累在同一个框架里融合的结果。
把AI七十年的历史压缩成几个节点,真正的转折其实只有那么几次:1956年达特茅斯会议命名了这个领域;2012年AlexNet证明深度学习的路是通的;2017年Transformer提供了统一所有方向的架构基础;2022年11月ChatGPT的发布,让普通人第一次用身体感受到了AI能力的边界在哪里。
ChatGPT上线的速度不是因为营销做得好,而是因为这次人们真的感受到了不同——它不是一个更聪明的搜索引擎,也不是一个更花哨的问答系统,而是一个能接住几乎任意问题并给出有用回答的系统。这种"接住"的感觉,是七十年技术积累带来的,也是三条赛道汇合后才出现的新能力。
如果你看这段历史里真正关键的技术节点,会发现核心的突破其实发生在最近十年,甚至最近五年。技术积累有它自己的节奏,不是匀速前进的——它会在某个临界点突然加速,然后让所有人都来不及反应。ChatGPT就是那个让所有人措手不及的时刻。
ChatGPT的出现让很多严肃的AI研究者经历了一种复杂的情绪,有个词精准地描述了这种感受——"苦涩的教训"(The Bitter Lesson)。这个词来自强化学习先驱Richard Sutton在2019年写的一篇短文。他总结了七十年AI研究最令人不舒服的规律:每一次,专家们精心设计的领域知识系统,最终都输给了那些什么领域知识都不用、只是把数据和算力堆得更大的通用方法。他说这个教训是"苦涩的",因为研究者反复相信领域知识能带来优势,然后反复被计算规模打脸。
ChatGPT把这个规律推向了极致。自然语言处理(NLP)领域有一大批研究者,花了十年甚至二十年,精心研究语法树的解析、语义角色的标注、机器翻译的概率模型——每一步都有精妙的数学推导,每篇论文都是对某个子问题的深度钻研。然后OpenAI做了一件粗暴的事:从互联网上抓来海量文字,让模型反复做一件事——猜下一个词。规模足够大之后,所有那些被精心解决的子问题全部被一次性扫平。你精心构建的方程,被一堆数据给淹了。
波士顿动力成立于1992年,从MIT衍生而出,是全球机器人领域公认的天花板。他们用三十年和顶尖的控制理论专家,精心推导机器人每一个关节的力矩控制、每一步的平衡算法。他们的Spot机器狗,定价74,500美元。
2016年,一个叫王兴兴的中国研究生,从大疆离职后创办了宇树科技。他走的路完全不同:用便宜的电机和现成零件,在虚拟仿真环境里同时开8000多个并行模拟,让机器人自己反复摔跤爬起来,训练出来的策略直接迁移到真实机器上。不需要推导方程,让强化学习自己找到解法。
2024年,宇树G1机器人侧空翻的视频疯传。售价:99,000元人民币,约合13,600美元——波士顿动力Atlas定价约320,000美元的二十分之一。同年,宇树占据了全球四足机器人市场将近70%的份额。马斯克公开点赞。
打败你的,不一定是更聪明的方案。
可能只是一个数据更多、算力更大、更不怕堆的对手。大模型如此,机器人如此。这个时代最反直觉的规律是:在某些问题上,与其花时间找到"正确的方法",不如先把暴力方法堆到它的极限,再说别的。
(如果这还不够苦涩:宇树在2024年底把全部训练代码完全开源了。现在任何人都可以免费复制他们的方法。)