AI与人类智识的谦卑时刻
我经常用这样一个问题来检验新发布的大型语言模型(LLM)— 在下述条件下,Y教授将六本不同的书分配给四名不同的学生,共有多少种不同的方式? 最昂贵的一本书必须分配给学生X。 每个学生至少获得一本书。 最早能妥善解决这个问题的模型, 是OpenAI的o1模型; 随后是谷歌的Gemini 2.0 Flash Thinking。 接下来,越来越多具备深度推理能力的“思维型”模型涌现, 比如DeepSeek的R1、Anthropic的Claude 3.7(启用了扩展思维模式)等等, 它们都能准确无误地处理这个问题。 (2025-07-13更新:现在能够准确解答这一问题的模型已包括Grok、Mistral、Qwen等。我已经数不过来了。) ...