推理模型（Reasoning Models）

技术雷达

发布于 : Apr 02, 2025

Apr 2025

评估

自上次雷达发布以来， 推理模型（Reasoning Models） 的突破和普及是人工智能领域最重要的进展之一。这些模型，也被称为“思考模型”，在诸如前沿数学和编码等中，它们已达到人类顶级水平的表现。

推理模型通常通过强化学习(搁尝)或监督式微调(厂贵罢)进行训练，增强了诸如逐步思考（）、探索替代方案（）和等能力。典型代表包括 OpenAI 的 / 、 DeepSeek R1 和。然而，这些模型应被视为与通用大型语言模型（尝尝惭）不同的类别，而非简单的高级版本。

这种能力提升伴随着代价。推理模型需要更长的响应时间和更高的 token 消耗，因此我们戏称它们为“更慢的 AI”（如果当前的 AI 还不够慢的话）。并非所有任务都值得采用这类模型。对于文本摘要、内容生成或快速响应聊天机器人等简单任务，通用 LLM 仍然是更好的选择。我们建议在 STEM 领域、复杂问题解决和决策制定中使用推理模型——例如，将 LLM 用作评判者或通过推理模型显式的 CoT 输出来提高最终结果的可解释性。截至撰写本文时，混合推理模型已发布，暗示了传统 LLM 和推理模型之间融合的可能性。