DeepSeek

我经常用这样一个问题来检验新发布的大型语言模型（LLM）— 在下述条件下，Y教授将六本不同的书分配给四名不同的学生，共有多少种不同的方式？最昂贵的一本书必须分配给学生X。每个学生至少获得一本书。最早能妥善解决这个问题的模型，是OpenAI的o1模型；随后是谷歌的Gemini 2.0 Flash Thinking。接下来，越来越多具备深度推理能力的“思维型”模型涌现，比如DeepSeek的R1、Anthropic的Claude 3.7（启用了扩展思维模式）等等，它们都能准确无误地处理这个问题。（2025-07-13更新：现在能够准确解答这一问题的模型已包括Grok、Mistral、Qwen等。我已经数不过来了。） ...