查看强化学习的源代码


'''强化学习'''（[[英语]]：Reinforcement learning，简称RL），是[[机器学习]]中的一个领域，强调如何基于[[环境]]而行动，以取得最大化的预期利益。其灵感来源于心理学中的[[行为主义]]理论，即有机体如何在环境给予的奖励或惩罚的刺激下，逐步形成对刺激的预期，产生能获得最大利益的习惯性行为。这个方法具有普适性，因此在其他许多领域都有研究，例如[[博弈论]]、[[控制论]]、[[运筹学]]、[[信息论]]、仿真优化、[[多智能体系统]]、[[群体智能]]、[[统计学]]以及[[遗传算法]]。在运筹学和控制理论研究的语境下，强化学习被称作“近似动态规划”（approximate dynamic programming，ADP）。在[[最优控制]]理论中也有研究这个问题，虽然大部分的研究是关于最优解的存在和特性，并非是学习或者近似方面。在[[经济学]]和[[博弈论]]中，强化学习被用来解释在[[有限理性]]的条件下如何出现平衡。

在机器学习问题中，环境通常被规范为[[马尔可夫决策过程]]（Markov decision processes，MDP），所以许多强化学习算法在这种情况下使用[[动态规划]]技巧。传统的技术和强化学习算法的主要区别是，后者不需要关于MDP的知识，而且针对无法找到确切方法的大规模MDP。

强化学习和标准的[[监督式学习]]之间的区别在于，它并不需要出现正确的输入/输出对，也不需要精确校正次优化的行为。强化学习更加专注于在线规划，需要在探索（在未知的领域）和遵从（现有知识）之间找到平衡。强化学习中的“探索-遵从”的交换，在多臂老虎机（multi-armed bandit）问题和有限MDP中研究得最多。

===概述===

基本的强化学习模型包括：

# 环境状态的集合；
# 动作的集合；
# 在状态之间转换的规则（转移概率矩阵）；
# 规定转换后“即时奖励”的规则（奖励函数）；
# 描述主体能够观察到什么的规则。

规则通常是[[随机]]的。主体通常可以观察即时奖励和最后一次转换。在许多模型中，主体被假设为可以观察现有的环境状态，这种情况称为“完全可观测”（full observability），反之则称为“部分可观测”（partial observability）。通常，主体被允许的动作是有限的，例如，在棋盘中棋子只能上、下、左、右移动，或是使用的钱不能多于所拥有的。

强化学习的主体与环境基于离散的时间步作用。在每一个时间，主体接收到一个观测，通常其中包含奖励。然后，它从允许的集合中选择一个动作，然后送出到环境中去。环境则变化到一个新的状态，然后决定了和这个变化相关联的奖励。强化学习主体的目标，是得到尽可能多的奖励。主体选择的动作是其历史的函数，它也可以选择随机的动作。

将这个主体的表现和自始自终以最优方式行动的主体相比较，它们之间的行动差异产生了“悔过”的概念。如果要接近最优的方案来行动，主体必须根据它的长时间行动序列进行推理：例如，要最大化我的未来收入，我最好现在去上学，虽然这样行动的即时货币奖励为负值。

因此，强化学习对于包含长期反馈的问题比短期反馈的表现更好。它在许多问题上得到应用，包括[[机器人控制]]、电梯调度、[[电信]]通讯、[[双陆棋]]和[[西洋跳棋]]。

强化学习的强大能来源于两个方面：使用样本来优化行为，使用函数近似来描述复杂的环境。它们使得强化学习可以使用在以下的复杂环境中：

* 模型的环境已知，且解析解不存在；
* 仅仅给出环境的模拟模型（模拟优化方法的问题）；
* 从环境中获取信息的唯一办法是和它互动。前两个问题可以被考虑为规划问题，而最后一个问题可以被认为是genuine learning问题。使用强化学习的方法，这两种规划问题都可以被转化为[[机器学习]]问题。

===常用算法===

蒙特卡洛学习 Monte-Carlo Learning

Temporal-Difference Learning

SARSA

Q-Learning

===探索机制===

强化学习需要比较聪明的探索机制，直接随机的对动作进行采样的方法性能比较差。虽然小规模的马氏过程已经被认识的比较清楚，这些性质很难在状态空间规模比较大的时候适用，这个时候相对简单的探索机制是更加现实的。

其中的一种方法就是[[贪婪演算法]]（epsilon），这种方法会以比较大的概率去选择现在最好的动作。如果没有选择最优动作，就在剩下的动作中随机选择一个。epsilon在这里是一个可调节的参数，更小的epsilon意味着算法会更加贪心。

===参见===

*[[人工智能基本条目]]
*[[计算机科学技术基本条目]]
*[[工学（目录）]]

* [[计算机科学]]
* [[机器人学]]
* [[计算机视觉]]

* [[人工智能]]
* [[强人工智能]]

* [[艾伦·图灵]]
* [[图灵测试]]


* [[感知机]]
* [[多层感知器]]
* [[ER随机图]]

* [[无监督式学习网络]]
* [[人工神经网络]]
* [[数据聚类]]
* [[最大期望演算法]]

* [[人工生命]]
* [[人工智能哲学]]
* [[认知神经科学]]
* [[电脑围棋]]
* [[恐怖谷理论]]
* [[电子世界争霸战]]
* [[电脑科学]]
* [[认知科学]]
* [[意识]]
* [[语义学]]
* [[技术奇异点]]
* [[集体智慧]]
* [[控制论]]
* [[心理学]]
* [[生物化学计算机]]（例：[[人脑]]）
* [[国际人工智能联合会议]]
* [[网络本体语言]]（OWL）
* [[游戏树]]


* [[计算智能]]
* [[数据挖掘]]
* [[模式识别]]
* [[自主控制机器人]]
* [[归纳逻辑编程]]
* [[决策树]]
* [[人工神经网络|神经网络]]
* [[强化学习]]
* [[贝叶斯学习]]
* [[最近邻居法]]
* [[计算学习理论]]
* [[深度学习]]
* [[机器学习控制]]


* [[机械电子学]]
* [[控制论]]
* [[无人航空载具]]（俗称无人飞机）
* [[认知科学]]

* [[技术性失业]]

[[Category:工学]]
[[Category:计算机科学与技术]]
[[Category:人工智能| ]]

[[Category:控制论]]
[[Category:形式科学]]
[[Category:技术与社会]]
[[Category:计算神经科学]]
[[Category:新兴技术]]

[[Category:机器人学| ]]

[[Category:跨学科领域|J机]]
[[Category:机械工程|J机]]
[[Category:人工智能|J机]]
[[Category:计算机应用|J机]]

[[Category:机器人| ]]

[[Category:机器学习| ]]
[[Category:人工智能应用]]

[[Category:信息科学]]
[[Category:计算机科学]]
[[Category:神经网络| ]]

[[Category:人工神经网络]]
[[Category:机器学习演算法]]


[[Category:中文词典]]
[[Category:Q音词语]]
[[Category:强]]