强化学习
强化学习是机器学习的一个核心分支,研究智能体如何通过与环境的交互来学习最优行为策略。与监督学习不同,强化学习不依赖标注数据,而是通过试错和延迟奖励信号来发现能最大化累积奖励的行为方式[^c1]。
强化学习的思想可追溯至1950年代,经历了从图灵的奖惩机制概念、明斯基的SNARC机器到萨缪尔的跳棋程序等早期探索。1980年代,巴托和萨顿建立了现代强化学习的理论框架,提出了时序差分学习和演员—评论家架构。1989年Q学习被提出,1992年TD-Gammon取得突破——这些里程碑工作奠定了算法基础。进入深度学习时代后,DQN、AlphaGo、PPO等突破将强化学习推向新的高度[^c1]。2025年,ACM将图灵奖授予巴托和萨顿,表彰其对强化学习的奠基性贡献[^c2]。与此同时,NVIDIA与David Silver创立的Ineffable Intelligence合作构建大规模RL基础设施,推动RL向能够自主发现新知识的"超级学习者"方向演进[^c3]。
在大语言模型领域,以GRPO和DAPO为代表的可验证奖励驱动方法正在取代传统的RLHF范式,成为LLM后训练的主流选择[^c4]。2026年以来,RL在LLM中的应用正在快速扩展:Pair-GRPO家族通过梯度等价定理统一了偏好约束框架[^c7];研究表明RL在预训练早期即可生效,挑战了SFT→RL的标准流程[^c8];高斯信任区域策略优化(GTR)重新设计了信任区域机制以提升非平稳环境下的鲁棒性。在基础设施方面,AWS和微软等云厂商开始提供强化学习即服务,使大规模RL训练的工程门槛显著降低[^c5][^c6]。
强化学习的方法体系涵盖价值基方法(Q学习、DQN)、策略梯度方法(PPO)、最大熵方法(SAC)、信任区域方法(GTR)、离线强化学习(CQL)以及模型基方法(MuZero)等。其应用领域从游戏扩展至机器人操作、自动驾驶、电商推荐、大语言模型训练和智能体系统等广泛场景。