目录
  1. 1. 目录
  2. 2. 一、从预测 Token 到真正”推理”:核心挑战
    1. 2.1. 1.1 LLM 的”思维速度”问题
    2. 2.2. 1.2 标准 LLM 的数学推理局限性
  3. 3. 二、Chain-of-Thought:让模型先思考再回答
    1. 3.1. 2.1 核心方法
    2. 3.2. 2.2 CoT 的效果
    3. 3.3. 2.3 Zero-shot CoT:只加一句话
  4. 4. 三、从 Prompting 到训练:让 CoT 成为模型内化能力
    1. 4.1. 3.1 问题:Prompting 的局限性
    2. 4.2. 3.2 Scratchpad 微调
    3. 4.3. 3.3 Process Reward Models(过程奖励模型)
  5. 5. 四、DeepSeek-R1:用纯强化学习涌现推理能力
    1. 5.1. 4.1 DeepSeek-R1-Zero:纯 RL 的惊人结果
    2. 5.2. 4.2 GRPO 算法
    3. 5.3. 4.3 DeepSeek-R1 的完整训练流程
    4. 5.4. 4.4 奖励设计的关键细节
  6. 6. 五、Test-Time Compute Scaling(推理时计算扩展)
    1. 6.1. 5.1 训练时计算 vs 推理时计算
    2. 6.2. 5.2 Best-of-N Sampling
    3. 6.3. 5.3 Self-Consistency(自我一致性)
    4. 6.4. 5.4 Beam Search 与推理搜索
    5. 6.5. 5.5 推理时计算的最优分配
  7. 7. 六、OpenAI o1/o3 系列的已知信息
  8. 8. 七、Claude 的 Extended Thinking 模式
  9. 9. 八、Reasoning 模型的训练数据:关键挑战
    1. 9.1. 8.1 可验证奖励的重要性
    2. 9.2. 8.2 蒸馏(Distillation)
  10. 10. 九、Reasoning 模型的局限性与研究前沿
    1. 10.1. 9.1 已知局限性
    2. 10.2. 9.2 研究前沿
Reasoning 模型训练技术全景

核心论文:

  • Chain-of-Thought Prompting Elicits Reasoning in Large Language Models(Wei et al., Google, 2022)arXiv:2201.11903
  • Let’s Verify Step by Step(Lightman et al., OpenAI, 2023)arXiv:2305.20050
  • DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning(DeepSeek-AI, 2025)arXiv:2501.12948(Nature, Volume 645, 633–638, 2025)
  • Scaling LLM Test-Time Compute Optimally(Snell et al., UC Berkeley, 2024)arXiv:2408.03314
  • Self-Consistency Improves Chain of Thought Reasoning(Wang et al., Google, 2022)arXiv:2203.11171
  • Tree of Thoughts: Deliberate Problem Solving with LLMs(Yao et al., Princeton/Google, 2023)arXiv:2305.10601

目录

  1. 一、从预测 Token 到真正”推理”:核心挑战
  2. 二、Chain-of-Thought:让模型先思考再回答
  3. 三、从 Prompting 到训练:让 CoT 成为模型内化能力
  4. 四、DeepSeek-R1:用纯强化学习涌现推理能力
  5. 五、Test-Time Compute Scaling(推理时计算扩展)
  6. 六、OpenAI o1/o3 系列的已知信息
  7. 七、Claude 的 Extended Thinking 模式
  8. 八、Reasoning 模型的训练数据:关键挑战
  9. 九、Reasoning 模型的局限性与研究前沿

一、从预测 Token 到真正”推理”:核心挑战

1.1 LLM 的”思维速度”问题

心理学研究(Daniel Kahneman 的《Thinking, Fast and Slow》,2011)将人类思维分为两类:

  • 系统1(快思维): 快速、自动、直觉,不需要有意识的努力
  • 系统2(慢思维): 慢速、分析、逻辑,需要有意识的努力

标准 LLM 的文本生成类似系统1:在一步之内,不假思索地预测下一个 token。这对于简单问题(”法国的首都是哪里?”)足够了,但对于需要多步推理的复杂问题(”如果 $x + y = 10$ 且 $xy = 21$,求 $x^2 + y^2$”),直接预测答案的成功率极低。

核心原因: 复杂问题的正确答案需要建立在中间步骤的基础上,而在一次前向传播中,模型没有足够的”计算空间”来构建这些中间步骤。

Chain-of-Thought 和 Reasoning 模型的核心思想都是:给模型更多的计算机会(通过生成中间步骤),来解决需要多步推理的问题

1.2 标准 LLM 的数学推理局限性

一个具体的例子:

问题:小明有 5 个苹果,给了小红 2 个,然后又从市场买了 3 个,最后他有几个苹果?

直接预测答案:对于这个简单问题,GPT-3(未经 CoT 训练)有时会答错(答出”3 个”,即只计算了最后的购买)。

这是因为模型在生成最终答案时,需要在单个 forward pass 中”隐式”完成加减运算,而这对 Transformer 的激活空间是挑战。

涌现性(Emergent Abilities)的门槛: Wei et al.(2022, arXiv:2206.07682)发现,数学推理等能力在模型达到一定规模(约 100B 参数)时才”突然出现”,小模型即使用 CoT 也几乎无法推理。这被称为”涌现能力”。

二、Chain-of-Thought:让模型先思考再回答

论文: Chain-of-Thought Prompting Elicits Reasoning in Large Language Models(Wei et al., Google, 2022)arXiv:2201.11903

2.1 核心方法

Chain-of-Thought(CoT,思维链)的方法极其简单:在 few-shot 示例中,不只给出”问题→答案”,而是给出”问题→推理步骤→答案”:

标准 few-shot 示例:

Q: Roger has 5 tennis balls. He buys 2 more cans of tennis balls. Each can has 3 tennis balls. How many tennis balls does he have now?
A: 11.

CoT few-shot 示例:

Q: Roger has 5 tennis balls. He buys 2 more cans of tennis balls. Each can has 3 tennis balls. How many tennis balls does he have now?
A: Roger started with 5 balls. 2 cans × 3 balls/can = 6 balls. 5 + 6 = 11. The answer is 11.

在这种格式的 few-shot 示例引导下,大型模型会自动生成中间推理步骤,然后给出答案。

2.2 CoT 的效果

Wei et al. 的实验(在 GPT-3、PaLM 等模型上):

评测集 标准 few-shot CoT few-shot 提升
GSM8K(数学) PaLM 540B:17.9% PaLM 540B:56.9% +39%
SVAMP(数学) 62% 79% +17%
AQuA(代数) 33% 50% +17%
StrategyQA(常识) 63% 65% +2%

重要发现:

  1. CoT 效果随模型规模增大而增强;在小模型(7B 以下)上几乎无效
  2. CoT 在需要多步推理的任务上效果最显著;在单步推理任务上提升很小
  3. CoT 生成的中间步骤不需要”完全正确”,只要帮助模型建立正确的推理框架即可

2.3 Zero-shot CoT:只加一句话

论文: Large Language Models are Zero-Shot Reasoners(Kojima et al., 2022)arXiv:2205.11916

发现只需在问题末尾加上 “Let’s think step by step.”(让我们一步步思考),模型就会自动生成推理步骤,效果接近 few-shot CoT。

这说明 CoT 能力在足够大的模型中已经以某种形式”存在”,只需要合适的 prompt 触发。

三、从 Prompting 到训练:让 CoT 成为模型内化能力

3.1 问题:Prompting 的局限性

CoT Prompting 只能在模型已经具备 CoT 能力的情况下工作(需要足够大的模型),且每次推理都需要额外的 prompt 设计。更根本的问题是:这不是训练出的能力,而是靠 prompt 诱导出来的,不稳定。

目标: 通过训练,让模型把 CoT 推理作为内化能力,而不只是 prompt 触发的行为。

3.2 Scratchpad 微调

早期方法: 收集带有推理过程的示例数据,然后做 SFT:

训练数据格式:
输入:Q: Roger has 5 tennis balls...
输出:Roger started with 5 balls. 2 cans × 3 = 6. 5 + 6 = 11. \\boxed{11}

这让模型学会在回答前生成推理过程,但问题是高质量的推理数据很难获取,且模型只学到了”模仿”推理格式,不一定真正学到推理能力。

3.3 Process Reward Models(过程奖励模型)

论文: Let’s Verify Step by Step(Lightman et al., OpenAI, 2023)arXiv:2305.20050

背景: 标准奖励模型只评判最终答案(Outcome Reward Model, ORM),但多步推理可能在中间某一步出错,最终答案虽然错了但无法告诉模型哪一步出了问题。

PRM 的思路: 对推理链的每一步都单独评分,精确识别错误发生在哪一步。

数据收集:

  • 对每个数学问题,生成多条推理链(每条有不同的中间步骤)
  • 让人类标注员对推理链中的每一步标注:正确(+)、错误(-)、不确定(?)
  • 用这些步骤级别的标注训练 PRM:$r_\phi(x, y_1, \ldots, y_k) \in {+1, -1}$

实验结果(MATH 数据集):

方法 MATH 正确率
Best-of-N(N=100,ORM 选择) 54.0%
Best-of-N(N=100,PRM 选择) 72.4%
Beam search(PRM 引导) 78.2%

PRM 的主要优势在于 Best-of-N 选择:生成多条推理链,用 PRM 选出最佳的一条,效果远优于 ORM。

局限性: PRM 需要大量精细的人工标注(步骤级别),成本极高。OpenAI 为收集 MATH 数据集的 PRM 训练数据花费了大量人力。

四、DeepSeek-R1:用纯强化学习涌现推理能力

论文: DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning(DeepSeek-AI, 2025)arXiv:2501.12948

这篇论文是目前为止对”如何训练出 o1 级别推理模型”最完整的公开披露,2025年登上 Nature 期刊(Volume 645, 633–638)。

4.1 DeepSeek-R1-Zero:纯 RL 的惊人结果

核心问题: 能否完全不使用 Chain-of-Thought 示例数据,只靠强化学习让模型自发学会推理?

答案:可以,但有代价。

训练设置:

  • 基座模型:DeepSeek-V3-Base(671B MoE,37B 激活)
  • RL 算法:GRPO(Group Relative Policy Optimization,见后文)
  • 奖励信号:只对最终答案的正确性给予奖励(0/1,即 ORM),不给予步骤级别反馈
  • 格式奖励:鼓励模型使用 <think>...</think><answer>...</answer> 格式

没有任何 Chain-of-Thought 示范数据!

涌现出的能力:

在完全没有 CoT 训练数据的情况下,DeepSeek-R1-Zero 自发涌现出了以下推理行为:

  1. 自我反思(Aha Moment): 模型在推理中途突然”意识到”之前的方向有误,然后重新开始:

    <think>
    Let me try a different approach...
    Wait, I made an error earlier. Let me reconsider...
    Actually, I realize the key insight is...
    </think>
  2. 验证(Verification): 模型在给出答案前自行验证:

    <think>
    Let me verify: 7 × 8 = 56, 56 + 12 = 68. Yes, that's correct.
    </think>
  3. 回溯(Backtracking): 在某条推理路径走不通时,回到分叉点尝试其他路径。

  4. 调用推理时间分配(Adaptive Compute): 对更难的问题,自动生成更长的思考过程。

AIME 2024 结果:

模型 AIME 2024 正确率
GPT-4o 9.3%
Claude 3.5 Sonnet(2024年版) 16.0%
DeepSeek-R1-Zero(纯 RL) 71.0%

“Aha Moment” 的重要性: DeepSeek 团队在论文中专门讨论了一个令他们兴奋的现象,称之为”Aha Moment”——模型学会了在思考过程中改变方向。这是人类解决复杂问题的关键能力之一,而它从未被显式训练,是从奖励信号中自发涌现的。

R1-Zero 的缺点:

  • 推理过程有时可读性差(语言混杂,逻辑跳跃)
  • 有时在推理链开头就迷失方向,浪费大量计算
  • 在一些简单格式任务上反而变差

4.2 GRPO 算法

DeepSeek-R1 使用的 RL 算法: GRPO(Group Relative Policy Optimization),而不是 PPO。

GRPO 是 PPO 的一个变体,专门为 LLM 推理训练设计,核心区别在于不需要 Critic 网络(价值函数),而是用同组多个输出的平均奖励作为基线(baseline)。

GRPO 的核心公式:

对于一条问题 $q$,生成 $G$ 个输出 ${o_1, o_2, \ldots, o_G}$,对每个输出计算奖励 ${r_1, r_2, \ldots, r_G}$:

优势函数估计(不需要 Critic,用组内均值作为基线):

$$\hat{A}_i = \frac{r_i - \text{mean}(r_1, \ldots, r_G)}{\text{std}(r_1, \ldots, r_G)}$$

策略梯度损失:

$$\mathcal{L}_{\text{GRPO}} = -\frac{1}{G} \sum_{i=1}^G \frac{1}{|o_i|} \sum_{t=1}^{|o_i|} \min\left(\rho_{i,t} \hat{A}_i, \text{clip}(\rho_{i,t}, 1-\epsilon, 1+\epsilon) \hat{A}_i\right) - \beta \mathbb{D}_{\text{KL}}[\pi_\theta \| \pi_{\text{ref}}]$$

GRPO vs PPO 的关键区别:

方面 PPO GRPO
优势函数估计 需要 Critic 网络 用组内相对奖励
显存需求 需要额外的 Critic 节省约 25% 显存
训练稳定性 Critic 需要与 Actor 协同训练 无 Critic,更稳定
适合场景 连续动作空间 离散的 token 生成

GRPO 的直觉:在一组生成的输出中,奖励高于平均的输出被鼓励(正优势),奖励低于平均的被抑制(负优势),使用组内相对奖励代替绝对奖励。

4.3 DeepSeek-R1 的完整训练流程

为了解决 R1-Zero 的可读性问题,DeepSeek-R1 使用了”冷启动数据 + RL”的混合方案:

阶段一:冷启动(Cold Start SFT)

收集少量(数千条)高质量的 CoT 示例数据,格式为:

<think>
[长且详细的推理过程,包括假设检验、回溯、自我验证]
</think>
[最终答案]

关键要求:

  • 推理过程足够详细(通常超过 1000 tokens)
  • 包含自我反思和验证的”人类风格”推理
  • 结构清晰,可读性好

对基座模型做 SFT,使其初步学会这种格式。

阶段二:推理导向的 RL(Reasoning-Oriented RL)

用 GRPO 进行大规模强化学习训练:

  • 奖励信号:

    • 准确性奖励:答案正确 +1,错误 0(可验证的数学/代码题用确定性检查,其他题用 LLM 评判)
    • 格式奖励:严格使用 <think>...</think> 格式才给正奖励
  • 数据:数学题(AIME/AMC 风格)+ 代码题(LeetCode/竞赛风格)+ 科学推理题

阶段三:拒绝采样 SFT(Rejection Sampling)

  • 用阶段二的模型对所有题目生成多个解法
  • 用奖励模型(正确性 + 可读性)过滤,只保留高质量推理链
  • 加入通用能力的 SFT 数据(写作、问答、角色扮演等,防止能力退化)
  • 对模型做 SFT

阶段四:全能力 RL(All-Scenario RL)

继续 RL 训练,但加入更多类型的奖励信号:

  • 数学/代码/逻辑的准确性奖励
  • 用 LLM 评判的有用性奖励(用于通用问答)
  • 有害性惩罚(安全对齐)

4.4 奖励设计的关键细节

可验证奖励 vs LLM 评判奖励:

对于数学题和代码题,可以确定性地验证答案是否正确:

  • 数学题:检查数值是否匹配(允许一定误差)或符号表达式是否等价
  • 代码题:运行测试用例,所有用例通过得分 1,否则得分 0

这类可验证的奖励非常干净,没有奖励模型的误差。DeepSeek-R1 的核心洞察是:数学和代码提供了天然的可验证奖励信号,是训练推理能力的理想场景。

对于通用问答,使用 LLM 评判(评判有用性、准确性、无害性),质量不如可验证奖励,但覆盖了更广泛的任务。

长度惩罚(Length Penalty):

为防止模型通过生成无限长的”思考”来规避判断,DeepSeek-R1 加入了长度惩罚:超过一定长度后,每个额外 token 扣除小额奖励。这迫使模型学会高效推理,而不是堆砌废话。

五、Test-Time Compute Scaling(推理时计算扩展)

论文: Scaling LLM Test-Time Compute Optimally(Snell et al., UC Berkeley, 2024)arXiv:2408.03314

5.1 训练时计算 vs 推理时计算

传统观点认为,LLM 的能力主要取决于训练时的计算量(参数量 × 训练 tokens)。但 2024 年的一个重要研究方向是:推理时多花计算,能否超越训练时更大的模型?

答案是:在某些条件下,可以。

核心思想: 在推理时,用更多的计算(生成更多样本、搜索更长的推理链)来提升单次查询的答案质量。

5.2 Best-of-N Sampling

最简单的推理时计算扩展方法:

  1. 对同一个问题,用模型生成 $N$ 个独立的答案
  2. 用奖励模型(或多数投票)从 $N$ 个答案中选出最好的

效果(来自 OpenAI PRM 论文):

对于 MATH 数据集,使用 PRM 做 Best-of-N 选择:

  • Best-of-1:约 46%
  • Best-of-100:约 72%(提升约 26%,相当于提升了 1-2 个模型代的差距)

成本: Best-of-N 的计算成本是 $O(N)$,对于 $N=100$,推理成本增加 100 倍,但可以通过并行化处理。

5.3 Self-Consistency(自我一致性)

论文: Self-Consistency Improves Chain of Thought Reasoning(Wang et al., Google, 2022)arXiv:2203.11171

一种无需奖励模型的 Best-of-N 变体:

  1. 生成 $N$ 条不同的推理链(通过高温度采样)
  2. 对最终答案进行多数投票(majority voting)
  3. 得票最多的答案作为最终输出

实验结果: 在 GSM8K 上,使用 40 条推理链的多数投票,比单次推理提升约 15%。

直觉: 如果不同的推理路径都能独立得出相同答案,这个答案更可能是正确的。正确答案的”吸引力”是真实的世界知识,而错误的推理路径相互独立,不太可能系统地产生相同的错误答案。

5.4 Beam Search 与推理搜索

Tree of Thoughts(ToT): Yao et al., Princeton/Google, 2023)arXiv:2305.10601

ToT 将推理过程建模为树形搜索:

      问题
/|\
方向A 方向B 方向C
/ \ | / \
A1 A2 B1 C1 C2
↓ ↓ ↓ ↓ ↓
评分 评分 评分 评分 评分
↑选出最好的继续

步骤:

  1. 分解问题为若干”思考步骤”
  2. 每步生成多个候选思路
  3. 用 LLM 对每个候选思路评分(”这条路径有希望吗?”)
  4. 选择最有希望的路径继续展开(类似 BFS 或 DFS + 启发式)
  5. 或使用 MCTS(蒙特卡洛树搜索)

效果: 在”24 点游戏”(用 4 个数字计算出 24)上,标准 CoT 正确率约 4%,ToT 提升到 74%。

实践局限: ToT 的推理开销是标准推理的数十到数百倍,实际应用中成本较高。

5.5 推理时计算的最优分配

Snell et al. 的研究回答了一个关键问题:给定固定的推理时计算预算 $C$,如何最优地分配?

两种策略的权衡:

  1. Verifier-based search(PRM 引导的搜索): 在推理树上做搜索,用 PRM 评估每步的质量,计算集中用于探索好的推理路径
  2. Revise iteratively(迭代修订): 生成初始答案,然后迭代地批评和修改,计算集中用于精炼最终答案

关键发现:

  • 对于简单问题(模型正确率较高):Best-of-N 或多数投票效果更好(广度优先)
  • 对于困难问题(模型正确率较低):PRM 引导的 beam search 效果更好(深度优先)

自适应计算: 理想情况下,应该根据问题难度动态分配推理时间——对简单问题快速回答,对难题投入更多计算。这正是 DeepSeek-R1 的 <think> 机制自发学会的:难题会自动生成更长的推理过程。

六、OpenAI o1/o3 系列的已知信息

OpenAI 从未公开 o1/o3 的训练细节,但从官方发布的信息和研究论文可以推断:

已知事实(来自官方材料):

  • o1 使用了大量推理时计算(thinking time 与测试集性能呈正相关)
  • o1 在数学、代码、科学推理上比 GPT-4o 大幅提升(AIME 2024:GPT-4o 9.3% vs o1 74.4%)
  • o3 在 ARC-AGI 测试集上达到了 87.5% 的成绩(超过人类平均水平 85%)

合理推断(基于 DeepSeek-R1 等公开研究):

  • 使用了 RL 训练推理能力(DeepSeek-R1 已证明纯 RL 可以涌现出推理)
  • 使用了 Test-Time Compute Scaling(推理时投入更多计算)
  • 可能使用了 Process Reward Model(步骤级别奖励)

o1 的系统卡(System Card)提到,模型能够自我改正(self-correction)和自我验证(self-verification),这与 R1-Zero 中观察到的涌现行为高度一致。

七、Claude 的 Extended Thinking 模式

Claude 3.7(2025年2月)引入了 Extended Thinking 功能(Anthropic 官方博客),允许模型在生成最终回复前花时间”思考”。

已知信息(来自 Anthropic 官方材料):

  • 思考过程对用户可见(与 o1 的不可见”思考” token 不同)
  • 用户可以设置最大 thinking budget(从 1K 到 128K tokens)
  • 在需要推理的任务上,extended thinking 显著提升了性能
  • 在数学(AIME 2024)和代码(SWE-bench)上有明显进步

未公开的内容: Anthropic 没有公开 extended thinking 的训练细节(是否使用 RL,是否使用 PRM,具体的训练数据来源)。

从第一性原理推断,Extended Thinking 的训练应该使用了类似 DeepSeek-R1 的 RL 方法(有可验证奖励信号的推理任务 + 策略梯度优化),同时结合了 Constitutional AI 的安全性约束(思考过程也需要遵守 HHH 原则)。

八、Reasoning 模型的训练数据:关键挑战

8.1 可验证奖励的重要性

Reasoning 模型训练中最关键的工程问题之一:如何构建大量可验证的训练题目

只有可验证答案的题目(数学、代码、形式逻辑)才能提供干净的 0/1 奖励信号。不可验证的开放性问题(写作、观点表达)需要依赖 LLM 评判,引入了更多噪声。

DeepSeek 的策略(来自技术报告):

  • 从 AIME/AMC/竞赛数学题库收集题目(覆盖 10+ 年历年题)
  • 从 LeetCode/Codeforces 收集代码竞赛题(包含测试用例)
  • 专门过滤掉”有答案泄露在网上”的题目(防止模型直接记忆答案而非推理)
  • 生成额外的合成数学题(用已知算法生成有唯一解的方程组/几何题)

8.2 蒸馏(Distillation)

DeepSeek-R1 开源了多个蒸馏版本(从 R1 蒸馏到更小的模型):

模型 基座 AIME 2024
DeepSeek-R1-Distill-Qwen-7B Qwen2.5-Math-7B 55.5%
DeepSeek-R1-Distill-LLaMA-8B LLaMA-3.1-8B 50.4%
DeepSeek-R1-Distill-Qwen-32B Qwen2.5-32B 72.6%
DeepSeek-R1-Distill-LLaMA-70B LLaMA-3.3-70B 70.0%

蒸馏方法: 用 R1 生成高质量的推理链(800K+ 条),然后对小模型做 SFT。结果令人惊讶:32B 的蒸馏版本性能接近完整的 671B R1 模型。

这说明:一旦推理能力被大模型学到,可以通过蒸馏有效地传递给小模型,而不需要重新进行昂贵的 RL 训练。

九、Reasoning 模型的局限性与研究前沿

9.1 已知局限性

长推理链的可靠性问题: 模型生成的推理链有时会出现”推理链错误但答案恰好正确”的现象(模型找到了捷径),或反过来”推理链看似合理但答案错误”。

形式化验证的缺失: 现有的 Reasoning 模型无法进行真正的形式化证明(如 Coq/Lean),它们生成的是自然语言推理而非逻辑严格的证明。

领域限制: RL 训练的效果高度依赖于奖励信号的质量。数学和代码上的成功很难直接迁移到需要开放式推理的领域(如历史分析、哲学论证)。

奖励黑客在推理中的体现: 模型可能学会”看起来像推理”的格式,而实际上直接跳跃到答案。这种行为很难通过奖励信号检测。

9.2 研究前沿

可扩展的过程奖励: 如何以更低成本获得步骤级别的奖励信号?一个方向是 Monte Carlo 估计——对每个中间步骤,随机继续完成多次,用最终答案的成功率估计这个步骤的质量(避免了逐步人工标注)。

形式化数学(Formal Mathematics): 使用 Lean、Isabelle 等形式化证明语言训练模型,提供100%可靠的步骤级别验证。AlphaProof(DeepMind,2024)在 IMO 数学题上取得了突破,但需要将自然语言题目转化为 Lean 代码。

Reward Model 的自改进: 用当前最强的推理模型来持续改进奖励模型,形成自我对弈的循环,类似 AlphaGo 的 self-play。

文章作者: Leo·Cheung
文章链接: http://tufusi.com/2025/05/01/Reasoning%E6%A8%A1%E5%9E%8B%E8%AE%AD%E7%BB%83%E6%8A%80%E6%9C%AF%E5%85%A8%E6%99%AF/
版权声明: 本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 ONE·PIECE
打赏
  • 微信
  • 支付宝

评论