Jannah 主题 许可证未验证,请转到主题选项页面以验证许可证,每个域名都需要一个许可证。

什么是强化学习?

强化学习是一种 机器学习 它基于奖励和惩罚。 本文解释了它们的定义、工作原理以及基本应用。

GettyImages-1161674558-bbb1f71d068e40c9b832f2eaad4fc348 ما هو التعلم المعزز؟

目录

强化学习的定义

使用程序 人工智能 (AI) 持续机器学习以提高速度和效率。 在强化学习中,人工智能会因期望的行为而受到奖励,并因不需要的行为而受到惩罚。

这种学习只能在受控环境中进行。 程序员为某些行为分配正值和负值(或“分数”),AI可以自由探索环境以获得奖励并避免惩罚。

理想情况下,人工智能会延迟短期收益,以支持长期收益,因此,如果它在 10 分钟内赢得 XNUMX 分或 XNUMX 分钟内赢得 XNUMX 分之间进行选择,它会延迟这种满足感并追求更高的价值。 同时,他将学会避免导致他失分的惩罚措施。

强化学习的例子

基于强化学习的人工智能在现实世界中的应用受到一定限制,但该方法在实验室实验中显示出了有希望的结果。

例如,这种学习训练人工智能玩视频游戏。 AI通过反复试验学习如何实现游戏目标。 例如,在《超级马里奥兄弟》这样的游戏中。 人工智能将确定到达每个关卡终点的最佳方式,同时避开敌人和障碍物。 数十个人工智能程序已经成功地战胜了特定的游戏,而 MuZero 也完善了它最初设计不适合玩的视频游戏。

另請閱讀:  什么是网络安全密钥以及如何找到它?

这种学习已用于培训企业资源管理 (ERM) 软件来分配业务资源以实现最佳的长期结果。 强化学习算法已用于训练机器人行走和执行其他物理任务。 这种学习在统计、模拟、工程、制造和医学研究方面也显示出了有希望的成果。

它的极限

强化学习算法的主要局限性是它们对封闭环境的依赖。 例如,机器人可以用它来导航一个一切都静止的房间。 然而,这种学习并不能帮助你在充满移动人群的走廊中导航,因为环境在不断变化。 机器人会漫无目的地撞到物体,而无法清晰地了解周围环境。

由于这种学习是基于反复试验的,因此可能会占用更多的时间和资源。 从好的方面来说,强化学习不需要大量的人工监督。

由于其局限性,它经常与其他类型的机器学习相结合。 例如,自动驾驶汽车使用其算法以及监督学习等其他机器学习技术来在道路上行驶而不会发生碰撞。

算法类型

强化学习算法可以分为两大类:基于模型的或无模型的。 基于模型的算法开发其环境模型来预测可能采取的行动的回报。 在无模型强化学习中,AI 代理直接通过试错来学习。

另請閱讀:  修复 Twitter 无法在 iPhone 和 Android 上运行的 12 种方法

基于模型的算法非常适合模拟和静态环境,例如装配线,其目标是反复重复相同的操作。 其基于模型的算法的例子包括价值迭代和策略迭代,其中人工智能代理遵循严格的公式(或“策略”)来确定最佳行动方案。

无模型算法对于更动态的现实情况非常有用。 无模型学习的一个例子是深度 Q 网络 (DQN) 算法,该算法使用神经网络根据先前的操作和结果来预测结果。 DQN 应用范围从股票市场预测到大型建筑的空气质量调节。

这种学习有一种变体,称为反向强化学习,即人工智能代理通过观察人类的行为来学习。

经常问的问题:

Q1:什么是Q-Learning?
الجواب: Q-Learning 是无模型算法的另一个术语。 这种特殊类型的强化学习不需要环境模型来对其进行预测; 它的目的是“学习”不同国家采取的行动。

Q2:强化学习的政策是什么?
الجواب: 策略是学习系统用来解决问题的计划。 她根据所掌握的信息和想要实现的解决方案来决定做什么以及何时做什么。

转到顶部按钮