强化学习

强化学习是机器学习的一个核心分支，研究智能体如何通过与环境的交互来学习最优行为策略。与监督学习不同，强化学习不依赖标注数据，而是通过试错和延迟奖励信号来发现能最大化累积奖励的行为方式[^c1]。

强化学习的思想可追溯至1950年代，经历了从图灵的奖惩机制概念、明斯基的SNARC机器到萨缪尔的跳棋程序等早期探索。1980年代，巴托和萨顿建立了现代强化学习的理论框架，提出了时序差分学习和演员—评论家架构。1989年Q学习被提出，1992年TD-Gammon取得突破——这些里程碑工作奠定了算法基础。进入深度学习时代后，DQN、AlphaGo、PPO等突破将强化学习推向新的高度[^c1]。2025年，ACM将图灵奖授予巴托和萨顿，表彰其对强化学习的奠基性贡献[^c2]。与此同时，NVIDIA与David Silver创立的Ineffable Intelligence合作构建大规模RL基础设施，推动RL向能够自主发现新知识的"超级学习者"方向演进[^c3]。

在大语言模型领域，以GRPO和DAPO为代表的可验证奖励驱动方法正在取代传统的RLHF范式，成为LLM后训练的主流选择[^c4]。2026年以来，RL在LLM中的应用正在快速扩展：Pair-GRPO家族通过梯度等价定理统一了偏好约束框架[^c7]；G2D流水线展示了短GRPO预热后接离线DPO可以匹配或超越纯粹在线RL[^c18]；理论证明GRPO算法隐藏着过程奖励模型结构，λ-GRPO修正了步骤奖励不平衡缺陷[^c19]；元认知即奖励（MaR）将元认知知识覆盖率和调节保真度纳入奖励维度[^c20]；ContextRL通过对比上下文选择目标提升长时域推理和多模态性能[^c21]；TRACER将遗憾匹配与角色特定GSPO奖励结合，实现协作多LLM推理[^c22]。研究表明RL在预训练早期即可生效，挑战了SFT→RL的标准流程[^c8]；DARTS通过主动分布塑形将rollout吞吐量提升1.77倍；EchoRL和Reasoning Arena分别从优势退化和奖励区分度两个角度改进了RLVR训练效果；高斯信任区域策略优化（GTR）重新设计了信任区域机制以提升非平稳环境下的鲁棒性。CPPO针对LLM自回归生成的位置不对称性提出了位置加权信任区域阈值[^c15]。一项从第一性原理出发的综述将所有策略优化方法统一到轨迹侧和奖励侧这两个组织轴上[^c16]。在理论方面，RLVR相比SFT在回溯学习能力上被证明具有推理时计算复杂度的指数级优势[^c13]。SPIRAL提出将顺序推理、并行采样和多轨迹聚合统一为端到端训练框架，扩展效率比GRPO高出11倍[^c12]。G2PO将线性智能体轨迹转化为全局状态转移图以解决长时域奖励稀疏问题[^c17]。在训练稳定性方面，GEOALIGN识别并修正rollout的方向不一致性导致的振荡更新[^c9]，而DCMDP通过差异约束马尔可夫决策过程管理训练-推理引擎差异[^c10]。在系统效率方面，RolloutPipe通过流水线化重叠rollout生成与训练，将总时间缩短30%以上[^c11]。NebulaExp-8B提供了完全透明、可复现的端到端后训练流水线和多教师在线策略蒸馏方法[^c14]。

在基础理论方面，2026年的研究发现了深度强化学习中一种名为峰值偏差（Trace-Mediated Peak Bias）的系统性失效模式——处于中等资格迹深度时智能体会偏好高峰值回报而非高累积回报的轨迹，与人类峰终法则认知偏差存在计算层面的联系[^c23]。在评估基准方面，Agentick提供了面向RL、LLM、VLM、混合和人类智能体的统一序列决策基准，包含37个程序化生成任务[^c25]。在部署范式方面，持续强化学习被提出为部署后智能体应采纳的学习范式，以应对环境动态变化、任务目标漂移等四种非平稳性来源[^c24]。

在物理世界应用方面，2026年由John Carmack和Richard Sutton联合主导的Physical Atari系统首次实现了真实物理世界中长时间不间断的强化学习，直接回应了模拟环境与现实之间的核心鸿沟问题。在科研自动化领域，MetaResearcher框架将多智能体群体架构与自反思元奖励机制相结合，探索RL驱动深度研究智能体的前沿路径。在机器人领域，全球首个面向真实机器人RL的大规模开源数据集RW-RL-Dataset发布，标志着工业机器人从"会模仿"向"能自愈"的关键跨越。在人类-AI协作方面，PASD（Partner-Aware Skill Discovery）提出了面向合作伙伴行为的深度分层技能发现框架，使智能体适应多样化的人类协作风格[^c26]。

强化学习的方法体系涵盖价值基方法（Q学习、DQN）、策略梯度方法（PPO）、最大熵方法（SAC）、信任区域方法（GTR）、离线强化学习（CQL、IQL、BFQ）以及模型基方法（MuZero、Dreamer）等。其应用领域从游戏扩展至机器人操作、自动驾驶、电商推荐、大语言模型训练和智能体系统等广泛场景。