机器人如何学习打败人类:神经网络政策和强化学习的力量

我们生活在这样一个时代,机器能够做出像人类一样复杂和微妙的决策,并且能够轻松适应新情况。这是由于经过大规模强化学习训练的神经网络政策所达到的。

Neural Network policy brain useful in scalable Reinforcement learning for Humanoid robots

在我们深入探讨之前,让我们先回顾一下强化学习(RL)。人工智能代理现在能够探索一个新的游乐场(环境)。当它与秋千和滑梯互动(状态/观察),它会做出选择(行动)并从后果中学习,这可能是一个成功的空翻(奖励)或划伤膝盖的失望(惩罚)。AI代理的目标?学习并随着时间的推移最大化乐趣(累积奖励)。

一个现实中的强化学习的经典例子是人工智能掌握象棋这个游戏。 每一步棋是一个动作,棋盘的状态是棋局,赢得游戏是最终的奖励。

现在,让我们用神经网络大脑升级我们的游乐场探险者。

人工智能中的政策实质上是一个决策策略。当我们将这个政策表示为一个神经网络时,我们赋予我们的人工智能代理学习观察到的事物(状态)和应该做的事情(动作)之间的非常复杂的关系的能力。

让我们假设我们的机器人正在学习跳舞。 一个简单的策略可能是“先移动左脚,然后右脚”。 但是神经网络策略可以学习探戈的复杂编舞,适应不同的音乐节奏和舞伴。

这怎么可能呢?这完全取决于通过数十亿次的练习来实践。

让我们来看看这个过程:

  • 从零开始:我们的机器人从随机的舞蹈动作开始(随机的神经网络参数)。
  • 练习使人更完美:它开始跳舞,根据自己目前的技能水平做出决定。
  • 从错误(和成功)中学习:每次舞蹈会话的结果被用来微调神经网络,逐渐提高其表现。

但要达到卓越的表现,必须使用精密的技术来训练模型,例如:

  • 策略梯度方法:想象一个舞蹈教练直接给出反馈。“多摆动臀部!”翻译成调整策略参数以提高性能。像 REINFORCE 和 Proximal Policy Optimization(PPO)这样的算法属于这一类别。
  • 演员 - 评论者方法:想象一个舞蹈二人组 - 演员(策略)执行动作,而评论者(值函数)评判它们执行得如何。这种团队合作通常导致更优雅的学习。
  • 经验回放:将其视为观看过去表演的录像。通过重新访问这些存储的经验,神经网络可以更有效地学习,细致地了解可能在第一次周围遗漏的细节。
  • Humanoids and Robots dancing using neural network and artificial intelligence

通过强化学习方法的神经网络政策在人工智能决策中赋予了计算机和机器人超能力:

  • 他们可以处理复杂的输入,如自动驾驶汽车需要处理的各种感官数据。
  • 他们学习端到端,并可能发现人类甚至没有想到的更有创意的方式。

结果令人惊讶。这项技术已经导致AI可以在围棋比赛中击败世界冠军(AlphaGo),以及可以轻松在旧金山街头行走的人形机器人。

🎉保持学习和发现人工智能新闻。如果你关注我并为这篇文章鼓掌,我将很高兴。谢谢 😸

2024-10-04 04:24:41 AI中文站翻译自原文