发布于 : Apr 02, 2025
Apr 2025
评估
自上次雷达发布以来, 推理模型(Reasoning Models) 的突破和普及是人工智能领域最重要的进展之一。这些模型,也被称为“思考模型”,在诸如前沿数学和编码等中,它们已达到人类顶级水平的表现。
推理模型通常通过强化学习(搁尝)或监督式微调(厂贵罢)进行训练,增强了诸如逐步思考()、探索替代方案()和等能力。典型代表包括 OpenAI 的 / 、 DeepSeek R1 和 。然而,这些模型应被视为与通用大型语言模型(尝尝惭)不同的类别,而非简单的高级版本。
这种能力提升伴随着代价。推理模型需要更长的响应时间和更高的 token 消耗,因此我们戏称它们为“更慢的 AI”(如果当前的 AI 还不够慢的话)。并非所有任务都值得采用这类模型。对于文本摘要、内容生成或快速响应聊天机器人等简单任务,通用 LLM 仍然是更好的选择。我们建议在 STEM 领域、复杂问题解决和决策制定中使用推理模型——例如,将 LLM 用作评判者或通过推理模型显式的 CoT 输出来提高最终结果的可解释性。截至撰写本文时,混合推理模型 已发布,暗示了传统 LLM 和推理模型之间融合的可能性。