强化学习
强化学习是机器学习的一个核心分支,研究智能体如何通过与环境的交互来学习最优行为策略。与监督学习不同,强化学习不依赖标注数据,而是通过试错和延迟奖励信号来发现能最大化累积奖励的行为方式[^c1]。
强化学习的思想可追溯至1950年代,经历了从图灵的奖惩机制概念、明斯基的SNARC机器到萨缪尔的跳棋程序等早期探索。1980年代,巴托和萨顿建立了现代强化学习的理论框架,提出了时序差分学习和演员—评论家架构。1990年代,Q学习和TD-Gammon等里程碑工作奠定了算法基础。进入深度学习时代后,DQN、AlphaGo、PPO等突破将强化学习推向新的高度[^c1]。2025年,ACM将图灵奖授予巴托和萨顿,表彰其对强化学习的奠基性贡献[^c2]。
强化学习的方法体系涵盖价值基方法(Q学习、DQN)、策略梯度方法(PPO)、最大熵方法(SAC)、离线强化学习(CQL)以及模型基方法(MuZero)等。其应用领域从游戏扩展至机器人操作、自动驾驶、电商推荐、大语言模型训练等广泛场景。