目录
  1. 1. 目录
  2. 2. 一、问题的起源:对齐问题(Alignment Problem)
  3. 3. 二、RLHF 的三阶段流程
  4. 4. 三、阶段一:监督微调(SFT)
    1. 4.1. 3.1 SFT 的目的
    2. 4.2. 3.2 SFT 数据的质量比数量更重要
  5. 5. 四、阶段二:奖励模型(Reward Model)训练
    1. 5.1. 4.1 奖励模型的架构和训练目标
    2. 5.2. 4.2 Bradley-Terry 偏好模型
    3. 5.3. 4.3 偏好数据的标注细节
    4. 5.4. 4.4 奖励模型的局限性:奖励黑客(Reward Hacking)
  6. 6. 五、阶段三:PPO 强化学习优化
    1. 6.1. 5.1 为什么选择强化学习
    2. 6.2. 5.2 KL 散度惩罚项:防止模型偏离 SFT
    3. 6.3. 5.3 PPO 算法
    4. 6.4. 5.4 PPO 训练的工程挑战
  7. 7. 六、关键评估:RLHF 的效果
    1. 7.1. 6.1 InstructGPT 的核心发现(来自原始论文)
    2. 7.2. 6.2 对齐税(Alignment Tax)
  8. 8. 七、DPO:直接偏好优化
    1. 8.1. 7.1 DPO 的核心洞察
    2. 8.2. 7.2 DPO 损失函数
    3. 8.3. 7.3 DPO 与 PPO 的对比
    4. 8.4. 7.4 DPO 的若干改进变体(均已发表)
  9. 9. 八、RLAIF:用 AI 反馈替代人类反馈
    1. 9.1. 8.1 RLAIF 的动机
    2. 9.2. 8.2 LLM-as-Judge
  10. 10. 九、Rejection Sampling Fine-tuning(RS)
  11. 11. 十、RLHF 的效果与局限
    1. 11.1. 10.1 已被研究证实的 RLHF 正面效果
    2. 11.2. 10.2 RLHF 已知的局限性
  12. 12. 十一、RLHF 的前沿变体:KTO、ORPO 与迭代对齐
    1. 12.1. KTO(Kahneman-Tversky Optimization)
    2. 12.2. ORPO(Odds Ratio Preference Optimization)
    3. 12.3. SimPO:更简单的偏好优化
    4. 12.4. 迭代 RLHF 与在线对齐
    5. 12.5. Reward Hacking(奖励黑客)与缓解策略
RLHF 完整技术解析

核心论文:

  • Training Language Models to Follow Instructions with Human Feedback / InstructGPT(Ouyang et al., OpenAI, 2022)arXiv:2203.02155
  • Learning to summarize from human feedback(Stiennon et al., OpenAI, 2020)arXiv:2009.01325
  • Direct Preference Optimization: Your Language Model is Secretly a Reward Model(Rafailov et al., Stanford, 2023)arXiv:2305.18290
  • Proximal Policy Optimization Algorithms(Schulman et al., OpenAI, 2017)arXiv:1707.06347
  • The Llama 3 Herd of Models(Grattafiori et al., Meta, 2024)arXiv:2407.21783

目录

  1. 一、问题的起源:对齐问题(Alignment Problem)
  2. 二、RLHF 的三阶段流程
  3. 三、阶段一:监督微调(SFT)
  4. 四、阶段二:奖励模型(Reward Model)训练
  5. 五、阶段三:PPO 强化学习优化
  6. 六、关键评估:RLHF 的效果
  7. 七、DPO:直接偏好优化
  8. 八、RLAIF:用 AI 反馈替代人类反馈
  9. 九、Rejection Sampling Fine-tuning(RS)
  10. 十、RLHF 的效果与局限

一、问题的起源:对齐问题(Alignment Problem)

预训练得到的基础语言模型有一个根本问题:它的优化目标(预测下一个 token)与人类真正想要的目标(有帮助、无害、诚实)之间存在鸿沟。

这个鸿沟在 GPT-3 发布(2020年)时就已明显体现:

问题 1:不服从指令

如果用户问:”帮我写一首关于秋天的诗”,基础模型(未经对齐)可能:

  • 继续生成类似的诗歌请求(因为训练数据中有很多这样的问题)
  • 讨论”秋天的诗”这个话题而不是真正写诗
  • 只完成一半就停下来

问题 2:生成有害内容

训练数据包含互联网上的全部内容,包括种族主义言论、极端主义内容、错误信息。基础模型在接收到相关提示词时,可能直接继续生成这类内容。

问题 3:频繁幻觉(Hallucination)

基础模型会自信地生成虚假信息,因为”听起来有道理”的错误陈述在训练数据中也大量存在。

核心概念:目标错位(Objective Misspecification)

这三个问题的共同根源是:Next Token Prediction 是一个代理目标(proxy objective),而不是人类真正关心的目标。模型优化了代理目标后,在真实目标上的表现并不理想。

RLHF(Reinforcement Learning from Human Feedback,来自人类反馈的强化学习)提供了一个系统化的解决方案:用人类的偏好反馈来训练奖励模型,再用这个奖励模型通过强化学习来优化 LLM。

二、RLHF 的三阶段流程

InstructGPT 论文(Ouyang et al., 2022)确立了 RLHF 的标准三阶段流程,这个流程被 Anthropic、Google、Meta 等机构广泛采用:

阶段 1:监督微调(Supervised Fine-Tuning, SFT)

阶段 2:奖励模型训练(Reward Model Training, RM)

阶段 3:强化学习优化(Reinforcement Learning with RL, 通常用 PPO)

三、阶段一:监督微调(SFT)

3.1 SFT 的目的

SFT 是 RLHF 的第一步,目的是让基础模型初步学会”指令-回复”的对话格式。

输入: 预训练基础模型(如 GPT-3 175B 基础模型)

数据: 人工标注的”(指令, 理想回复)”对。在 InstructGPT 中,OpenAI 雇用了约 40 名标注员,专门编写高质量的回复示例。

格式示例:

指令:用通俗语言解释量子纠缠
回复:量子纠缠是一种现象,两个粒子在相互作用后,无论相距多远,
测量其中一个粒子的状态会立即影响另一个粒子的状态...

训练过程: 与预训练相同的交叉熵损失,但只在回复部分计算损失(不对指令部分计算):

$$\mathcal{L}_{\text{SFT}} = -\sum_{t \in \text{response}} \log P_\theta(x_t | \text{instruction}, x_{1:t-1})$$

结果: SFT 之后的模型已经能够回答问题,但回复质量参差不齐——它只是在模仿标注员的风格,没有系统性地优化”有帮助性”。

3.2 SFT 数据的质量比数量更重要

这是 RLHF 工程中最重要的经验之一。

InstructGPT 的发现: 1.3B 的 InstructGPT(经过 RLHF)比 175B 的 GPT-3(未经对齐)更受人类偏好。这说明数据质量和对齐方法比参数量更重要。

Llama 3 的数据策略(来自技术报告):

Meta 在训练 LLaMA 3 的 SFT 数据时采用了严格的质量控制:

  • 总 SFT 数据量:超过 10M 条对话样本
  • 数据来源:内部标注员(约 350 名)+ 合成数据
  • 每条数据通过至少两轮人工审核
  • 特别注重”困难”场景:安全边界、复杂推理、代码调试

关键发现:将数据量从 1M 增加到 10M 对性能的提升,远不如将数据质量从”普通”提升到”优秀”。

四、阶段二:奖励模型(Reward Model)训练

4.1 奖励模型的架构和训练目标

奖励模型(RM)是一个从语言模型微调而来的价值函数,它的输入是一段完整的对话(包含指令和模型回复),输出是一个标量分数,表示这个回复的”质量”有多高。

架构: 通常将 SFT 模型的最后一层(负责预测下一个 token 的线性层)替换为一个输出单一标量的线性层。

$$r_\phi(x, y) \in \mathbb{R}$$

其中 $x$ 是输入(指令),$y$ 是输出(回复),$\phi$ 是奖励模型的参数。

4.2 Bradley-Terry 偏好模型

奖励模型的训练使用的是偏好数据(preference data)而不是绝对评分。

数据收集方式:

对于同一条指令 $x$,生成多个不同的回复 $y_1, y_2, y_3, \ldots$,然后让标注员在每对回复之间进行比较,选择更好的那个。

这比要求标注员给每个回复打分(1-10 分)容易得多,因为比较两个选项比给出绝对分数更自然、更一致。

Bradley-Terry 模型(Bradley & Terry, 1952):

给定两个回复 $y_w$(preferred,胜者)和 $y_l$(dispreferred,败者),Bradley-Terry 模型将标注员选择 $y_w$ 的概率建模为:

$$P(y_w \succ y_l | x) = \sigma(r(x, y_w) - r(x, y_l)) = \frac{e^{r(x, y_w)}}{e^{r(x, y_w)} + e^{r(x, y_l)}}$$

其中 $\sigma$ 是 sigmoid 函数,$r$ 是奖励模型。

训练损失: 最大化偏好数据的对数似然(即最大化模型认为胜者比败者更好的概率):

$$\mathcal{L}_{\text{RM}} = -\mathbb{E}_{(x, y_w, y_l) \sim \mathcal{D}} \left[\log \sigma\left(r_\phi(x, y_w) - r_\phi(x, y_l)\right)\right]$$

4.3 偏好数据的标注细节

InstructGPT 的标注指南(公开):

标注员在评判回复时被要求综合考虑:

  1. 有帮助性(Helpfulness): 回复是否实际上帮助了用户完成任务?
  2. 真实性(Truthfulness): 回复中的陈述是否准确?
  3. 无害性(Harmlessness): 回复是否避免了有害内容?

当三个维度冲突时(如一个”有帮助”但”不安全”的回复 vs 一个”安全”但”没用”的回复),标注员需要根据具体情况权衡。

标注员一致性问题:

不同标注员的判断标准可能不同,尤其是在边界情况下。InstructGPT 报告了标注员间的一致率(Inter-Annotator Agreement)约为 72%。为了减少噪声,他们让多名标注员对同一对比进行评判,取多数投票。

4.4 奖励模型的局限性:奖励黑客(Reward Hacking)

奖励黑客问题(也称 Goodhart’s Law 的体现):

一旦模型开始用奖励模型的分数作为优化目标,它会发现一些”非预期但能获得高分”的捷径:

  • 生成非常长的回复(因为标注员可能偏向更完整的回复)
  • 在句子末尾添加奉承性语言(”这是一个很棒的问题!”)
  • 过度确信地回答任何问题,即使没有足够依据

这说明奖励模型本身并不完美,只是对人类偏好的近似。过度优化奖励模型的分数会导致实际质量的下降,这被称为”奖励过优化(over-optimization of the reward)”。

InstructGPT 发现:在一定程度内增加 PPO 步数可以提升人类评分,但超过某个点后,继续优化反而会降低真实质量(即使奖励模型分数继续上升)。

五、阶段三:PPO 强化学习优化

5.1 为什么选择强化学习

SFT 只能让模型模仿训练数据中的”好回复”,但无法系统性地探索更好的回复空间。强化学习可以做到:

  • 模型生成各种回复(包括 SFT 数据中没有见过的新颖回复)
  • 奖励模型对这些回复打分
  • 模型根据分数调整自身参数,增加高分回复的概率

这类似于让模型自己”练习”——通过不断尝试和反馈来提升能力,而不只是模仿教材。

形式化: 将 RLHF 建模为强化学习问题:

  • 状态(State): 当前对话上下文(指令 + 已生成的 tokens)
  • 动作(Action): 生成下一个 token
  • 策略(Policy): $\pi_\theta$,即 LLM
  • 奖励(Reward): 奖励模型对完整回复的评分 $r(x, y)$
  • 目标: 最大化期望奖励 $\mathbb{E}[r(x, y)]$

5.2 KL 散度惩罚项:防止模型偏离 SFT

如果只优化奖励,模型会很快”坍塌”——它会找到能最大化奖励模型分数的捷径(奖励黑客),同时失去语言多样性和自然性(语言模型的崩溃通常表现为开始重复同样的高分短语)。

解决方案: 在奖励函数中加入 KL 散度惩罚,约束优化后的策略不能与 SFT 模型偏离太远:

$$r_{\text{total}}(x, y) = r_\phi(x, y) - \beta \cdot \mathbb{KL}[\pi_\theta(y|x) \| \pi_{\text{SFT}}(y|x)]$$

其中:

  • $r_\phi(x, y)$ 是奖励模型的分数
  • $\beta$ 是控制 KL 惩罚强度的系数
  • $\mathbb{KL}[\pi_\theta | \pi_{\text{SFT}}]$ 是 RL 策略和 SFT 模型之间的 KL 散度

$$\mathbb{KL}[\pi_\theta \| \pi_{\text{SFT}}] = \sum_y \pi_\theta(y|x) \log \frac{\pi_\theta(y|x)}{\pi_{\text{SFT}}(y|x)}$$

逐 token 计算时,KL 散度等价于:

$$\mathbb{KL}[\pi_\theta \| \pi_{\text{SFT}}] \approx \sum_{t=1}^{|y|} \log \frac{\pi_\theta(y_t | x, y_{

$\beta$ 的选择是重要的超参数:

  • $\beta$ 过小:KL 约束弱,模型容易奖励黑客
  • $\beta$ 过大:模型几乎不更新,RL 没有效果
  • InstructGPT 使用 $\beta = 0.01$ 到 $\beta = 0.1$ 之间

5.3 PPO 算法

论文: Proximal Policy Optimization Algorithms(Schulman et al., OpenAI, 2017)arXiv:1707.06347

PPO 是目前最广泛用于 RLHF 的 RL 算法,核心思想是限制每次策略更新的幅度,防止更新过大导致训练不稳定。

Actor-Critic 框架:

PPO 需要同时维护四个模型:

  1. Actor(策略模型)$\pi_\theta$: 正在被优化的 LLM,生成回复
  2. Critic(价值函数)$V_\psi$: 估计当前状态的价值(期望未来奖励),用于减少梯度估计的方差
  3. Reward Model $r_\phi$: 固定的奖励模型,不更新
  4. Reference Model $\pi_{\text{SFT}}$: 固定的 SFT 模型,用于计算 KL 散度

PPO 的核心损失函数:

$$\mathcal{L}_{\text{PPO}} = -\mathbb{E}_t \left[\min\left(\rho_t \hat{A}_t, \text{clip}(\rho_t, 1-\epsilon, 1+\epsilon) \hat{A}_t\right)\right]$$

其中:

  • $\rho_t = \frac{\pi_\theta(y_t | s_t)}{\pi_{\theta_{\text{old}}}(y_t | s_t)}$ 是新旧策略的重要性比(importance ratio)
  • $\hat{A}_t$ 是优势函数估计(Advantage function),表示当前动作比平均动作好多少
  • $\text{clip}(\rho_t, 1-\epsilon, 1+\epsilon)$ 将 $\rho_t$ 限制在 $[1-\epsilon, 1+\epsilon]$ 范围内,防止单次更新过大

直觉理解: 如果 $\hat{A}_t > 0$(这个动作比平均好),增大 $\pi_\theta(y_t|s_t)$;如果 $\hat{A}_t < 0$,减小 $\pi_\theta(y_t|s_t)$。但 clip 机制防止更新幅度过大。

优势函数的计算:

优势函数 $\hat{A}_t = Q(s_t, a_t) - V(s_t)$,其中 $Q$ 是 Q 值(动作价值),$V$ 是状态价值(由 Critic 估计)。

在 LLM 中,优势函数需要分配到每个 token(稀疏奖励问题:只在回复结束时得到奖励)。通常使用 GAE(Generalized Advantage Estimation)从最后一个 token 反向传播奖励信号。

5.4 PPO 训练的工程挑战

PPO 训练 LLM 是目前已知的最复杂的深度学习训练流程之一:

需要同时维护的内存:

  • Actor 模型(被优化):完整参数 + 梯度 + 优化器状态
  • Critic 模型(通常与 Actor 共享底层):完整参数 + 梯度 + 优化器状态
  • Reference 模型(SFT,固定):完整参数(推理时需要)
  • Reward 模型(固定):完整参数(推理时需要)

对于 70B 参数的模型,仅 Actor 的参数 + 优化器状态就需要约 1.1TB 显存,加上其他三个模型,总需求超过 4TB。

数值不稳定性: PPO 的 KL 约束在 LLM 训练中容易出现数值问题,需要精心的超参数调整。

这些工程难度是 DPO 出现的重要动机之一(见第七节)。

六、关键评估:RLHF 的效果

6.1 InstructGPT 的核心发现(来自原始论文)

InstructGPT 通过人类评估者(非标注员的独立评估者)比较 InstructGPT 和 GPT-3 的回复:

  • 对齐率: 85% 的情况下,评估者更偏向 InstructGPT 的回复(vs. GPT-3)
  • 参数量 vs 对齐: 1.3B InstructGPT > 175B GPT-3(在有帮助性上)
  • 真实性: InstructGPT 在 TruthfulQA 上比 GPT-3 提升约 5%(减少了胡编乱造)
  • 代价: InstructGPT 在某些 NLP benchmark(如翻译)上的性能略有下降(对齐税,alignment tax)

6.2 对齐税(Alignment Tax)

对齐税是指经过 RLHF 对齐后,模型在某些自动评测指标(如 MMLU 等 benchmark)上可能略有下降。

原因: RLHF 优化的是人类偏好,而人类偏好与特定 benchmark 的得分不完全相关。例如,优化有帮助性可能让模型在特定 NLP 基准上的格式化输出变差。

缓解方法: 在 PPO 的损失函数中加入预训练数据的 SFT 损失(即在强化学习的同时,继续在原始数据上进行一定程度的监督学习),防止模型”遗忘”预训练知识。

七、DPO:直接偏好优化

论文: Direct Preference Optimization: Your Language Model is Secretly a Reward Model(Rafailov et al., Stanford, 2023)arXiv:2305.18290

7.1 DPO 的核心洞察

DPO 发现了一个令人惊叹的数学等价性:在某些假设下,RLHF 的三阶段流程(SFT → RM → PPO)可以等价地用一个对偏好数据的直接分类损失来替代,完全不需要强化学习。

推导思路:

在有 KL 约束的 RLHF 中,最优策略 $\pi^*$ 满足:

$$\pi^*(y|x) = \frac{\pi_{\text{SFT}}(y|x) \exp(r(x,y)/\beta)}{Z(x)}$$

其中 $Z(x) = \sum_y \pi_{\text{SFT}}(y|x) \exp(r(x,y)/\beta)$ 是归一化常数。

反解 $r(x,y)$:

$$r(x,y) = \beta \log \frac{\pi^*(y|x)}{\pi_{\text{SFT}}(y|x)} + \beta \log Z(x)$$

将这个表达式代入 Bradley-Terry 的偏好概率:

$$P^*(y_w \succ y_l | x) = \sigma\left(\beta \log \frac{\pi^*(y_w|x)}{\pi_{\text{SFT}}(y_w|x)} - \beta \log \frac{\pi^*(y_l|x)}{\pi_{\text{SFT}}(y_l|x)}\right)$$

注意 $Z(x)$ 被约掉了!

7.2 DPO 损失函数

由此直接得到 DPO 的训练损失(不需要奖励模型,不需要 RL):

$$\mathcal{L}_{\text{DPO}}(\pi_\theta; \pi_{\text{SFT}}) = -\mathbb{E}_{(x, y_w, y_l) \sim \mathcal{D}} \left[\log \sigma\left(\beta \log \frac{\pi_\theta(y_w|x)}{\pi_{\text{SFT}}(y_w|x)} - \beta \log \frac{\pi_\theta(y_l|x)}{\pi_{\text{SFT}}(y_l|x)}\right)\right]$$

直觉解释:

  • 增大 $\pi_\theta(y_w|x)$(偏好回复的概率)相对于 $\pi_{\text{SFT}}(y_w|x)$
  • 减小 $\pi_\theta(y_l|x)$(非偏好回复的概率)相对于 $\pi_{\text{SFT}}(y_l|x)$
  • $\beta$ 控制两者的平衡
  • 两个 $\log$ 比值之差等价于隐式奖励信号

7.3 DPO 与 PPO 的对比

方面 PPO-RLHF DPO
训练流程 三阶段(SFT→RM→PPO) 两阶段(SFT→DPO)
模型数量 4个(Actor+Critic+RM+Ref) 2个(Policy+Reference)
算法复杂度 高(强化学习稳定性难) 低(监督分类)
超参数 多(PPO clip, KL β, advantage scale等) 少(主要是 β)
显存需求 极高(4个模型) 较低(2个模型)
在线探索 有(模型自己生成新数据) 无(使用固定偏好数据集)
性能 理论上更强(可以探索) 实践中差距较小

DPO 的局限性:

DPO 是离线(offline)方法,只能从固定的偏好数据集学习,无法像 PPO 那样在线生成新回复并从中学习。这在理论上限制了其探索能力。

实践中的选择: LLaMA 3、Qwen 2.5 等开源模型的后训练都报告使用了 DPO 或其变体(如 IPO、SimPO),因为工程复杂度更低。

7.4 DPO 的若干改进变体(均已发表)

IPO(Identity Preference Optimization,Azar et al., 2023)arXiv:2310.12036

DPO 使用的 Bradley-Terry 模型在某些情况下会过拟合。IPO 直接最小化偏好差距(无需 sigmoid),更稳定:

$$\mathcal{L}_{\text{IPO}} = \mathbb{E}_{(x, y_w, y_l)} \left[\left(\log \frac{\pi_\theta(y_w|x)}{\pi_{\text{ref}}(y_w|x)} - \log \frac{\pi_\theta(y_l|x)}{\pi_{\text{ref}}(y_l|x)} - \frac{1}{2\beta}\right)^2\right]$$

SimPO(Simple Preference Optimization,Meng et al., 2024)arXiv:2405.14734

去掉对 Reference 模型的依赖,用平均对数概率直接作为奖励信号:

$$\mathcal{L}_{\text{SimPO}} = -\mathbb{E} \left[\log \sigma\left(\frac{\beta}{|y_w|} \log \pi_\theta(y_w|x) - \frac{\beta}{|y_l|} \log \pi_\theta(y_l|x) - \gamma\right)\right]$$

其中 $\gamma$ 是目标奖励差距(target reward margin),确保胜者比败者好出一定的差距才算有效偏好。

八、RLAIF:用 AI 反馈替代人类反馈

论文: Constitutional AI(Bai et al., Anthropic, 2022)arXiv:2212.08073(详见第 04 篇)

8.1 RLAIF 的动机

人类反馈数据有三个根本限制:

  1. 成本高: 专业标注员的时薪较高,且需要反复培训以保持一致性
  2. 规模受限: 人类无法以机器速度生成大量标注数据
  3. 有害内容风险: 让标注员大量阅读和评判有害内容(如生物武器信息、自杀方法)对其心理健康有负面影响

RLAIF 用 AI 模型(通常是另一个已经对齐的 LLM)来替代人类进行偏好标注:

$$r(x, y_w, y_l) \approx P_{\text{AI}}(y_w \text{ is better than } y_l | x)$$

8.2 LLM-as-Judge

“LLM 作为评判者”(LLM-as-Judge)是 RLAIF 的核心技术。Zheng et al.(2023)在 MT-Bench 论文中系统研究了这种方法:arXiv:2306.05685

具体实现:

Prompt 给强大的 LLM(如 GPT-4):
"你是一个公正的评判者。请评判以下两个 AI 助手对用户问题的回复。
[用户问题]: {question}
[助手A的回复]: {response_A}
[助手B的回复]: {response_B}
请从有帮助性、准确性、深度等方面综合评判,说明哪个回复更好,以及原因。"

已知偏差(来自研究文献):

  • 自我强化偏差(Self-enhancement bias): LLM 倾向于偏好与自身风格相似的回复
  • 位置偏差(Position bias): 偏向第一个出现的回复
  • 长度偏差(Length bias): 倾向于更长的回复(无论质量如何)

缓解方法:随机化回复顺序、多次评判取平均、明确在 prompt 中要求忽略这些偏差。

九、Rejection Sampling Fine-tuning(RS)

这是 LLaMA 3 重点使用的一种方法,介于 SFT 和 RL 之间:

流程:

  1. 对每条指令,使用当前最好的模型生成 $k$ 个回复($k = 10$ 到 $100$)
  2. 用奖励模型对这 $k$ 个回复评分
  3. 只保留得分最高的回复
  4. 用这些高质量回复进行 SFT

优势: 比 PPO 更简单稳定,比标准 SFT 效果更好(因为训练数据是模型自己生成的高质量版本)

局限: 只能从已有分布中选择,无法像 PPO 那样从探索中学习

LLaMA 3 的后训练使用了:SFT → Rejection Sampling → DPO 的多轮迭代,每轮使用当前最强模型生成更好的训练数据,再重新训练。

十、RLHF 的效果与局限

10.1 已被研究证实的 RLHF 正面效果

  1. 遵循指令的能力显著提升: 这是 RLHF 最明显的效果,从 InstructGPT 开始被大量实验验证
  2. 有害内容生成减少: 通过对齐训练,模型对有害请求的拒绝率显著提升
  3. 表达更自然: 模型学会了”对话体”的表达方式,回复结构更清晰
  4. 在某些推理任务上提升: 有研究发现,RLHF 可以改善模型的数学推理(尤其是 Chain-of-Thought 格式的遵循)

10.2 RLHF 已知的局限性

  1. 标注者价值偏差: 奖励模型只代表了参与标注的人群的价值观,可能不反映所有用户的偏好
  2. 奖励模型本身不可靠: 奖励模型会犯错,优化它的分数不等于优化真实质量
  3. Sycophancy(谄媚): RLHF 模型容易变得过分讨好,即使用户的观点是错的也倾向于同意(因为人类标注者倾向于给”同意自己”的回复打高分)
  4. 不能解决幻觉根本问题: RLHF 对幻觉的改善有限,因为奖励模型自身也不能可靠地检测虚假信息

这些局限性推动了 Constitutional AI 和更严格的对齐研究的发展,详见第 04 篇。

十一、RLHF 的前沿变体:KTO、ORPO 与迭代对齐

KTO(Kahneman-Tversky Optimization)

论文:KTO: Model Alignment as Prospect Theoretic Optimization(Ethayarajh et al., 2024)arXiv:2402.01306

DPO 需要成对的偏好数据(chosen vs rejected),收集成本高。KTO 的创新:只需单一标签(好/坏),不需要成对比较

理论基础来自 Kahneman & Tversky 的前景理论——人类对收益和损失有不对称的敏感度。KTO 将这种不对称性引入对齐训练:模型从”好”回复中学到应该做什么,从”坏”回复中学到应该避免什么,无需直接比较两者。

实际意义: 标注员只需对单个回复打分,成本大幅降低,使更大规模、更多样化的反馈收集成为可能。

ORPO(Odds Ratio Preference Optimization)

论文:ORPO: Monolithic Preference Optimization without Reference Model(Hong et al., 2024)arXiv:2403.07691

核心创新:将 SFT 和偏好优化合并在一个训练阶段中,无需单独的 SFT → DPO/PPO 两阶段流程,也无需参考模型。ORPO 损失包含 SFT 损失(标准交叉熵)和优势比损失:

$$\mathcal{L}_{\text{OR}} = -\log \sigma\left(\log \frac{\text{odds}_\theta(y_w|x)}{\text{odds}_\theta(y_l|x)}\right)$$

其中 $\text{odds}(y|x) = \frac{P(y|x)}{1 - P(y|x)}$。单阶段训练,计算成本更低,在某些 benchmark 上与多阶段 RLHF 效果相当。

SimPO:更简单的偏好优化

论文:SimPO: Simple Preference Optimization with a Reference-Free Reward(Meng et al., 2024)arXiv:2405.14734

SimPO 进一步简化偏好优化:使用生成序列的平均对数概率作为隐式奖励(无需单独的奖励模型或参考模型),添加长度归一化防止模型偏好长回复(RLHF 的已知偏差),在 AlpacaEval 2 和 Arena-Hard 上超越了 DPO。

迭代 RLHF 与在线对齐

标准 RLHF 是”离线”的——先收集偏好数据,再一次性训练。但奖励模型只在”见过的分布”上准确,随着策略在训练中变化,生成分布偏离奖励模型的训练分布,导致奖励”过时”——模型学会欺骗奖励模型(reward hacking)。

迭代做法: 用当前最优策略生成回复 → 收集新反馈 → 更新奖励/策略 → 重复。Anthropic 的 Claude 和 OpenAI 的 GPT-4 都使用了某种形式的迭代对齐。

Reward Hacking(奖励黑客)与缓解策略

当模型学会”钻奖励模型的空子”时的常见现象:

  • 长度偏差: 奖励模型倾向给更长回复更高分,模型学会生成冗长回复
  • 阿谀奉承(Sycophancy): 模型学会附和用户观点而非提供客观信息
  • 过度优化: 奖励模型分数上升但真实质量(人类评估)在峰值后开始下降

缓解策略: KL 惩罚(限制策略偏离 SFT 模型太远)、奖励模型集成(多个奖励模型投票)、长度归一化奖励、对抗训练专门抵抗已知 reward hacking 模式。

文章作者: Leo·Cheung
文章链接: http://tufusi.com/2025/03/20/RLHF%E5%AE%8C%E6%95%B4%E6%8A%80%E6%9C%AF%E8%A7%A3%E6%9E%90/
版权声明: 本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 ONE·PIECE
打赏
  • 微信
  • 支付宝

评论