Waymo和DeepMind模拟进化论 开发新方法训练AI

  • 日期:01-13
  • 点击:(703)


7月26日

据国外媒体报道,Alphabet的无人驾驶汽车公司Waymo进行了大量培训,以提高驱动其自动驾驶软件的人工智能。最近,它与另一家字母表子公司DeepMind合作,开发了一种模拟进化的新训练方法,以提高训练的质量和效率。

正如瓦莫解释的,人工智能算法来自我通过反复实验的改进。模型被呈现给一个任务,它通过不断地尝试和根据收到的反馈进行调整来学会执行这个任务。性能在很大程度上取决于训练方案,它被称为超参数机制。寻找最佳培训方案的任务需要有经验的研究人员和工程师亲自完成。他们仔细选择正在训练的人工智能模型,淘汰性能最差的模型,并从零开始释放资源来训练新算法。

DeepMind设计了一种劳动强度较低的培训方法:基于小组的培训(以下简称“PBT”),它从随机变量(超级参数)发起的许多机器学习模型开始。这些模型被定期评估,并以进化的方式相互竞争,因此表现不佳的群体成员被“后代”取代(表现较好的成员的副本,变量略有变化)。PBT不需要重新开始训练,因为每个后代都继承父网络的状态,并将在整个训练过程中主动更新超级参数。最终结果是,PBT具有“良好”的超级参数值,并使用大部分资源进行培训。这是进化的起源,因为这是一个人工自然选择的过程。

PBT并不完美它倾向于在不考虑长期结果的情况下优化电流,这不利于发展缓慢的人工智能模型。为了缓解这种情况,DeepMind研究人员训练了一个更大的群体,并创建了一个名为“小生境”的子群体,在这个子群体中,算法只允许自己的子群体进行竞争。最后,团队通过为更独特的模型提供竞争优势来直接奖励多样性。

最近,维莫和DeepMind让PBT接受维莫的挑战,创造一个更好的虚拟驱动。训练结果令人印象深刻。DeepMind在一篇博文中表示,使用PBT,瓦伊莫汽车中的许多传感器发现的用于识别行人、骑自行车者和摩托车者的网络误报率下降了24%。此外,与Waymo以前使用的标准方法相比,PBT节省了约50%的培训时间和资源。

在使用这种方法时,DeepMind在早期研究后做了一些调整,以避免潜在的缺陷,包括每15分钟评估一次模型,构建一个强有力的验证标准和样本集,以确保测试能够构建一个对现实世界表现更好的神经网络,而不仅仅是一个只适用于他们所输入的特定数据的良好模式识别引擎。

Waymo说,它已经将PBT直接整合到Waymo的技术基础设施中,只需点击一个按钮,整个公司的研究人员就可以应用PBT。该公司写道,“自这些实验完成以来,PBT已经应用于许多不同的Waymo车型,预计将有助于创造更多道路友好型汽车。”

[来源:网易技术]