强化学习

强化学习是机器学习的一个核心分支，研究智能体如何通过与环境的交互来学习最优行为策略。与监督学习不同，强化学习不依赖标注数据，而是通过试错和延迟奖励信号来发现能最大化累积奖励的行为方式[^c1]。

强化学习的思想可追溯至1950年代，经历了从图灵的奖惩机制概念、明斯基的SNARC机器到萨缪尔的跳棋程序等早期探索。1980年代，巴托和萨顿建立了现代强化学习的理论框架，提出了时序差分学习和演员—评论家架构。1990年代，Q学习和TD-Gammon等里程碑工作奠定了算法基础。进入深度学习时代后，DQN、AlphaGo、PPO等突破将强化学习推向新的高度[^c1]。2025年，ACM将图灵奖授予巴托和萨顿，表彰其对强化学习的奠基性贡献[^c2]。

强化学习的方法体系涵盖价值基方法（Q学习、DQN）、策略梯度方法（PPO）、最大熵方法（SAC）、离线强化学习（CQL）以及模型基方法（MuZero）等。其应用领域从游戏扩展至机器人操作、自动驾驶、电商推荐、大语言模型训练等广泛场景。