美团：去相关奖励优化多目标学习

发布时间：2026/6/4 22:13:18

标题Multi-Objective and Mixed-Reward Reinforcement Learning via Reward-Decorrelated Policy Optimization来源arXiv, 2605.13641v1️文章简介研究问题在多任务混合奖励的强化学习环境中如何克服异构奖励分布差异大及维度间相关性高导致的标量优势构建不稳定问题主要贡献论文提出了奖励去相关策略优化RDPO方法通过两级处理流程显著提升了大模型在后训练阶段的指令遵循、写作质量及鲁棒性。重点思路提出幅度感知分位数归一化MAQ利用对数压缩间隙和逆正态映射将不同量纲和分布的奖励转化为统一尺度解决二元、离散及连续奖励混合时的异常值敏感问题。引入马氏白化技术在活跃奖励子空间内计算协方差矩阵并进行特征分解去除共现奖励维度间的冗余信息避免相同变异被重复计算。设计有效信息效率指标从投影均衡性和相关性冗余两个维度量化评估混合奖励聚合质量指导算法优化方向。采用指数移动平均在线估计协方差并仅对当前任务实际观测到的奖励子空间进行局部白化适应多任务场景下奖励信号动态变化的特性。分析总结实验表明 MAQ 能有效降低单条 rollout 主导提示级优势分配的概率显著提高有效 rollout 参与度使策略更新更稳定。马氏白化处理成功降低了代码生成、数学推理等任务子空间内的奖励皮尔逊相关系数减少了有效信息的冗余损耗。在 LongCat-Flash 后训练中RDPO 在 IFEval、WritingBench 及 ArenaHard 等高难度基准上均优于 GRPO 和 GDPO 基线。组件消融实验证实归一化与白化模块具有互补效应前者改善分布敏感型指标后者提升相关性敏感型任务表现。个人观点论文发现混合奖励中“尺度不均”与“信息冗余”两大痛点引入统计学中的马氏距离概念进行动态去相关结合鲁棒的分位数归一化巧妙地将复杂的异构信号转化为高质量的优势估计。