查看强化学习的源代码
←
强化学习
跳转至:
导航
、
搜索
因为以下原因,你没有权限编辑本页:
你刚才请求的操作只对属于该用户组的用户开放:
用户
您可以查看并复制此页面的源代码:
'''强化学习'''([[英语]]:Reinforcement learning,简称RL),是[[机器学习]]中的一个领域,强调如何基于[[环境]]而行动,以取得最大化的预期利益。其灵感来源于心理学中的[[行为主义]]理论,即有机体如何在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的预期,产生能获得最大利益的习惯性行为。这个方法具有普适性,因此在其他许多领域都有研究,例如[[博弈论]]、[[控制论]]、[[运筹学]]、[[信息论]]、仿真优化、[[多智能体系统]]、[[群体智能]]、[[统计学]]以及[[遗传算法]]。在运筹学和控制理论研究的语境下,强化学习被称作“近似动态规划”(approximate dynamic programming,ADP)。在[[最优控制]]理论中也有研究这个问题,虽然大部分的研究是关于最优解的存在和特性,并非是学习或者近似方面。在[[经济学]]和[[博弈论]]中,强化学习被用来解释在[[有限理性]]的条件下如何出现平衡。 在机器学习问题中,环境通常被规范为[[马尔可夫决策过程]](Markov decision processes,MDP),所以许多强化学习算法在这种情况下使用[[动态规划]]技巧。传统的技术和强化学习算法的主要区别是,后者不需要关于MDP的知识,而且针对无法找到确切方法的大规模MDP。 强化学习和标准的[[监督式学习]]之间的区别在于,它并不需要出现正确的输入/输出对,也不需要精确校正次优化的行为。强化学习更加专注于在线规划,需要在探索(在未知的领域)和遵从(现有知识)之间找到平衡。强化学习中的“探索-遵从”的交换,在多臂老虎机(multi-armed bandit)问题和有限MDP中研究得最多。 ===概述=== 基本的强化学习模型包括: # 环境状态的集合; # 动作的集合; # 在状态之间转换的规则(转移概率矩阵); # 规定转换后“即时奖励”的规则(奖励函数); # 描述主体能够观察到什么的规则。 规则通常是[[随机]]的。主体通常可以观察即时奖励和最后一次转换。在许多模型中,主体被假设为可以观察现有的环境状态,这种情况称为“完全可观测”(full observability),反之则称为“部分可观测”(partial observability)。通常,主体被允许的动作是有限的,例如,在棋盘中棋子只能上、下、左、右移动,或是使用的钱不能多于所拥有的。 强化学习的主体与环境基于离散的时间步作用。在每一个时间,主体接收到一个观测,通常其中包含奖励。然后,它从允许的集合中选择一个动作,然后送出到环境中去。环境则变化到一个新的状态,然后决定了和这个变化相关联的奖励。强化学习主体的目标,是得到尽可能多的奖励。主体选择的动作是其历史的函数,它也可以选择随机的动作。 将这个主体的表现和自始自终以最优方式行动的主体相比较,它们之间的行动差异产生了“悔过”的概念。如果要接近最优的方案来行动,主体必须根据它的长时间行动序列进行推理:例如,要最大化我的未来收入,我最好现在去上学,虽然这样行动的即时货币奖励为负值。 因此,强化学习对于包含长期反馈的问题比短期反馈的表现更好。它在许多问题上得到应用,包括[[机器人控制]]、电梯调度、[[电信]]通讯、[[双陆棋]]和[[西洋跳棋]]。 强化学习的强大能来源于两个方面:使用样本来优化行为,使用函数近似来描述复杂的环境。它们使得强化学习可以使用在以下的复杂环境中: * 模型的环境已知,且解析解不存在; * 仅仅给出环境的模拟模型(模拟优化方法的问题); * 从环境中获取信息的唯一办法是和它互动。前两个问题可以被考虑为规划问题,而最后一个问题可以被认为是genuine learning问题。使用强化学习的方法,这两种规划问题都可以被转化为[[机器学习]]问题。 ===常用算法=== 蒙特卡洛学习 Monte-Carlo Learning Temporal-Difference Learning SARSA Q-Learning ===探索机制=== 强化学习需要比较聪明的探索机制,直接随机的对动作进行采样的方法性能比较差。虽然小规模的马氏过程已经被认识的比较清楚,这些性质很难在状态空间规模比较大的时候适用,这个时候相对简单的探索机制是更加现实的。 其中的一种方法就是[[贪婪演算法]](epsilon),这种方法会以比较大的概率去选择现在最好的动作。如果没有选择最优动作,就在剩下的动作中随机选择一个。epsilon在这里是一个可调节的参数,更小的epsilon意味着算法会更加贪心。 ===参见=== *[[人工智能基本条目]] *[[计算机科学技术基本条目]] *[[工学(目录)]] * [[计算机科学]] * [[机器人学]] * [[计算机视觉]] * [[人工智能]] * [[强人工智能]] * [[艾伦·图灵]] * [[图灵测试]] * [[感知机]] * [[多层感知器]] * [[ER随机图]] * [[无监督式学习网络]] * [[人工神经网络]] * [[数据聚类]] * [[最大期望演算法]] * [[人工生命]] * [[人工智能哲学]] * [[认知神经科学]] * [[电脑围棋]] * [[恐怖谷理论]] * [[电子世界争霸战]] * [[电脑科学]] * [[认知科学]] * [[意识]] * [[语义学]] * [[技术奇异点]] * [[集体智慧]] * [[控制论]] * [[心理学]] * [[生物化学计算机]](例:[[人脑]]) * [[国际人工智能联合会议]] * [[网络本体语言]](OWL) * [[游戏树]] * [[计算智能]] * [[数据挖掘]] * [[模式识别]] * [[自主控制机器人]] * [[归纳逻辑编程]] * [[决策树]] * [[人工神经网络|神经网络]] * [[强化学习]] * [[贝叶斯学习]] * [[最近邻居法]] * [[计算学习理论]] * [[深度学习]] * [[机器学习控制]] * [[机械电子学]] * [[控制论]] * [[无人航空载具]](俗称无人飞机) * [[认知科学]] * [[技术性失业]] [[Category:工学]] [[Category:计算机科学与技术]] [[Category:人工智能| ]] [[Category:控制论]] [[Category:形式科学]] [[Category:技术与社会]] [[Category:计算神经科学]] [[Category:新兴技术]] [[Category:机器人学| ]] [[Category:跨学科领域|J机]] [[Category:机械工程|J机]] [[Category:人工智能|J机]] [[Category:计算机应用|J机]] [[Category:机器人| ]] [[Category:机器学习| ]] [[Category:人工智能应用]] [[Category:信息科学]] [[Category:计算机科学]] [[Category:神经网络| ]] [[Category:人工神经网络]] [[Category:机器学习演算法]] [[Category:中文词典]] [[Category:Q音词语]] [[Category:强]]
返回
强化学习
。
导航菜单
个人工具
创建账户
登录
名字空间
页面
讨论
变种
查看
阅读
查看源代码
查看历史
操作
搜索
导航
首页
最近更改
随机页面
工具箱
链入页面
相关更改
特殊页面
页面信息
扫描二维码可以用手机浏览词条