我经常用这样一个问题来检验新发布的大型语言模型(LLM)—
在下述条件下,Y教授将六本不同的书分配给四名不同的学生,共有多少种不同的方式?
- 最昂贵的一本书必须分配给学生X。
- 每个学生至少获得一本书。
最早能妥善解决这个问题的模型, 是OpenAI的o1模型; 随后是谷歌的Gemini 2.0 Flash Thinking。 接下来,越来越多具备深度推理能力的“思维型”模型涌现, 比如DeepSeek的R1、Anthropic的Claude 3.7(启用了扩展思维模式)等等, 它们都能准确无误地处理这个问题。 (2025-07-13更新:现在能够准确解答这一问题的模型已包括Grok、Mistral、Qwen等。我已经数不过来了。)
与早期那些依靠模式识别和经验数据的模型不同, 这些新型的思维模型采取了一种被称为“思维链”(chain-of-thought)的推演方式, 逐步细致地推敲问题。 虽然这种严密的推理过程意味着更高的计算成本, 但在科学、编程与数学等领域,却展现出显著优越的表现。
然而,令我意外的是, DeepSeek推出的非思维模型DeepSeek-V3-0324竟也正确地解答了这个问题。 这不禁让我怀疑, 是不是我的测试题偶然进入了模型的训练数据, 抑或是普通的(非思维型)模型, 也已悄然迎来了能力的跃迁。
我依然怀疑这些模型是否具备独立创造突破性发现的能力。 但我也无法忽视这一事实:我们日常的大部分知识性工作,包括大学教育中传授的许多技能,或许很快就能被这些LLM准确地完成。 每当想到这一点,我总会想起《艾伦·图灵传》(Alan Turing: The Enigma)中的那段话 ——
也许,这才是图灵最令人感叹之处: 尽管他自己在战争年代建功立业,也面对过无数的愚昧与困顿, 但他却依然拒绝承认知识分子与科学家属于某种更高等的阶级。 他相信,当智能机器取代了过去“主宰者”的角色时, 那些智识专家便会被“拉下神坛”。 就像维多利亚时代的技术让工匠们的手艺机械化一般, 未来的计算机也将实现智力劳动的自动化。 人类专家表现出的那种“工匠式嫉妒”,反而令图灵欣喜。 他实质上是一位反技术官僚主义者, 暗中颠覆着新世界里那些祭司和魔法师们的威权。 他渴望看到知识分子变回普通人。 当然,这样的观念显然不会讨查尔斯·达尔文爵士的欢心。
图灵的洞见,似乎恰切地描绘了我们当下AI时代的境况。 当机器在那些过去被视作人类专属领域的智力活动上表现出色时, 它们也在挑战我们长久以来对智识高人一等的执念。 或许在图灵看来,今日AI的进步并非什么可怕的现象, 而正是他曾经愿景的兑现——AI工具既可以使智力劳动不再专属于精英,变得普惠于众, 也提醒我们:身为人类的意义远不仅仅是计算或逻辑推理的能力。 或许AI最终将帮助我们卸下智识的傲慢, 引导我们重新发现那些机器无法模仿的人性光辉。