网易首页 > 网易科技 > 科学探索 > 正文

促进强化学习落地产业界:网易推出强化编程框架

0
分享至

人工智能顶会NeurIPS 2018正在如火如荼的进行着,并且首次在第一天增加了Expo Workshop。一共有十家公司有幸拿到了组织workshop的机会,其中中国有四家,分别是阿里巴巴,百度,Pony.AI和网易。其中,AI方面一向低调的网易首次公布了自主研发的创新性强化编程(Reinforced Programming)框架。下面我们就一起了解下网易在NeurIPS 2018的Workshop,以及这个强化编程框架吧。

Workshop简介

随着李世石与AlphaGO的巅峰对决,强化学习为越来越多的人所知晓。强化学习(Reinforcement Learning,RL)是机器学习中的一个重要分支,智能体(Agent)通过与环境不断交互学习如何进行连续决策。Agent从环境中获取状态(State),决策要做的动作(Action),并得到环境反馈(Reward),逐渐学会更好的策略(Policy),从而最大化自己的收益。换句话说,强化学习可以通过人机训练或者自我学习,不断进步,找到解决问题的最佳方法。随着强化学习的爆发性进展,它也被大家寄予了越来越大的期望。


强化学习发展历程

既然强化学习这么厉害,已经在棋类游戏中打遍人类无敌手。是不是之后所有的事情就可以交给强化学习让机器自己来学习了呢?其实大部分强化学习的研究都还局限在学术界,如何把强化学习落地到实践中来依旧是个非常大的难题,受着很多条件的限制。因此网易伏羲AI实验室组织举办了主题为“Make Reinforcement Learning in Touch with Industry”的Expo Workshop来讨论如何更好的让强化学习应用到产业界中来。在Workshop中,网易除了公布自主研发的强化编程框架外,还邀请了南京大学的俞扬教授,天津大学的郝建业教授,氪信科技的CEO朱明杰博士,和滴滴AI实验室强化学习组负责人秦志伟博士等多位学术界和产业界著名专家学者共同探讨强化学习落地产业应用的相关进展。

强化编程框架

强化学习之所以难在产业界落地,主要有以下几个问题:1.知识依赖:强化学习这么前沿,对理论深刻理解的人自然少之又少,而仅仅想做应用也必需掌握一些基本的理论概念。2. 现实场景的复杂性和多变性:学术研究是把问题简单和抽象化,而现实中产业应用问题通常更加复杂,需要结合大量的先验知识,而且场景丰富多变。3.计算及数据量巨大:产业应用中问题的复杂性同样带来更大的计算量及数据样本量需求。

强化编程框架的设计也正是为了解决这几个问题。在解决知识依赖的问题上,新框架希望最终将学习成本降至最低,在传统编程的基础上,创新性的将函数概念扩展出可学习的“神经网络函数”。也就是说,就算你不懂强化学习,你也可以像调用普通函数一样简单的调用神经网络函数,而且这个神经网络函数可以自我学习。在解决现实场景复杂性和多变性的问题上,新框架设计了一套可视化的流程图前端工具,可以快速设计及维护上层逻辑,应对复杂多变的场景需求;同时,新框架让传统编程和强化学习无缝衔接,灵活的支持逻辑规则与强化学习混合编程,并支持多网络的协同训练。这通常对应了复杂问题的分解及分层结构的强化学习,在这里都可以通过流程图轻松直观的表达在解决计算及数据量巨大的问题上,伏羲实验室提供了一整套后端云平台作为解决方案。之所以叫强化编程这个名字,实际上是一语双关。首先是对现有编程方法的一种增强,其次是通过强化学习来实现这种能力。


伏羲强化编程框架

从整个框架来看,首先提供了一个面向业务方的流程图工具,以流程图的形式对强化学习问题进行建模,自动生成代码(目前支持Lua、Python及C#语言),嵌入到各种类型的业务产品中,实现与环境交互,并具有调试功能。同时提供一个基于完整计算集群的容器云平台,将各种RL算法(DQN、A3C、Impala等)通过容器化的方式进行封装,支持所有主流的深度学习框架(TensorFlow、Mxnet、PyTorch等)。基于RPC连接环境和训练集群,并对客户端获取的数据进行有效地封装和转发,同时将服务器产生的策略返回给客户端,组包在服务器端进行,支持并行及动态扩容的训练。网易伏羲实验室还提供了一套完整的SDK方案,在平台上完成训练后,可以方便地将训练结果导出,部署到服务器或客户端。最后可以通过一个Web控制前端,查看训练数据及效果、规划计算资源、改进训练方案,从而提升工作效率。

实际应用

伏羲实验室先在Atari游戏Pong上验证了该框架解决经典强化学习实验问题的有效性。下图为相应的流程图和训练效果:


Pong流程图模型


Pong训练效果

然后,伏羲实验室使用一款1v1动作对战游戏验证了混合编程和多网络编程在解决复杂问题上的的优势。通过流程图的方式可以引入专家经验,也可以对训练模型进行分层。实验设置如下:实验1为未经任何处理的端到端模型,直接由RL算法探索所有空间。实验2为单个神经网络与专家知识的混合编程模型,神经网络先选择技能大类,同一类技能内再靠人工规则实现选择。实验3为结合经验的分层神经网络模型,在这里,上层策略与底层策略都由神经网络实现。


端到端模型、混合编程模型与分层模型

实验结果显示:蓝色线条为端到端的模型,效果最差;红色为网络加规则的混合模型一开始上升很快,且始终优于蓝色;绿色线条为分层模型,最初低于红色,但在后续训练过程中逐渐变成收益最高的一条曲线。验证了复杂问题中引入人工经验进行混合编程与问题分解进行分层网络训练的优势


实验结果对比

在过去的一年多时间里,伏羲实验室已经利用该框架将深度强化学习应用于游戏产业。目前已在网易的多款自研产品中取得成果并上线,涵盖MMORPG、篮球、动作及休闲等众多品类。

下面是强化编程框架在潮人篮球这款游戏中的应用实例。以多网络的方式实现了篮球游戏内的AI设计,通过流程图实现attack、defense、ball clear、free ball四个网络的建模,编辑对应的神经网络,调用RL插件接口,在Web前端申请计算资源进行训练。

视频1 流程图工具建模实例

可以看到4个网络的训练随着机器人的状态进行切换

视频2 网络训练实例

最终,在潮人篮球线上3V3模式中,3个AI Bot胜率达82%,2个AI与1个玩家人机合作胜率达70%。

视频3 潮人篮球3v3强化学习AI Bot

网易伏羲实验室

网易伏羲实验室是国内首家专业游戏AI研究机构,成立于2017年9月,目前已有160名成员。实验室在强化学习、自然语言处理、计算机视觉和虚拟人等方向开展学术研究及产业落地尝试。愿景是“以人工智能技术点亮游戏未来”,希望运用人工智能的尖端技术为玩家营造新世代的游戏体验,同时借助游戏平台的海量数据和仿真环境,推动人工智能技术发展。

在本届NeurIPS Expo研讨会上,伏羲实验室提出了一种新的强化编程框架,能够让没有任何强化学习背景知识的使用者也能将这项技术应用到现实问题,促进强化学习在产业界落地。该框架是对传统编程的增强,使用者能够以调用一种可学习函数的方式使用强化学习,方便的实现逻辑规则与强化学习的混合编程及多网络协同学习,该框架还提供了可视化的流程图前端工具和集成各种算法的后端云平台,能够更加快捷地实现上述编程模式。此外,很多后续工作也在进行,如集成AutoML、支持模仿学习等。

在该框架的工作中,南京大学LAMDA实验室的俞扬教授团队与伏羲团队建立了合作,并计划将该框架用于星际AI和基于环境建模的模仿学习研究中。该框架已经在多款网易的游戏中应用,并计划和氪信科技一起将其推广到金融领域。网易方面表示,希望这套强化编程框架不断改进变得更加通用,让强化学习技术更快的在产业应用中发挥价值,未来帮助用户解决更多实际问题。同时也欢迎各界积极交流、探讨,共同推进AI技术发展。

相关推荐
热点推荐
4种素菜是“嘌呤大户”,越吃痛风、肾病来得越快!其中3个比海鲜还高,劝你管住嘴

4种素菜是“嘌呤大户”,越吃痛风、肾病来得越快!其中3个比海鲜还高,劝你管住嘴

北青网-北京青年报
2024-04-15 13:47:09
水均益:你八抬大轿抬我去美国,我都不愿意去!就是这么拽!

水均益:你八抬大轿抬我去美国,我都不愿意去!就是这么拽!

伤心鱼头
2024-04-16 12:05:50
历史上最接近39岁詹姆斯数据的球员,是29岁的巅峰威斯布鲁克!

历史上最接近39岁詹姆斯数据的球员,是29岁的巅峰威斯布鲁克!

历史第一人梅西
2024-04-16 17:41:00
害不害臊?太古里街头网红当众擦边,网友:能把这些妖怪打尽吗?

害不害臊?太古里街头网红当众擦边,网友:能把这些妖怪打尽吗?

意外动物
2024-04-16 14:10:05
搞钱的底层逻辑,看懂少走10年弯路

搞钱的底层逻辑,看懂少走10年弯路

洞见
2024-04-15 21:55:38
库里:我们必须赢下明天的附加赛 我们会在48分钟里都竭尽全力

库里:我们必须赢下明天的附加赛 我们会在48分钟里都竭尽全力

直播吧
2024-04-16 13:14:28
不让碰?男子出差一个月,回来发现老婆不让碰,网友:这眼神吓人

不让碰?男子出差一个月,回来发现老婆不让碰,网友:这眼神吓人

雅清故事汇
2024-04-16 11:14:39
世上“绿茶”千万万,最怕刘诗诗这种,原来我们被骗了十几年

世上“绿茶”千万万,最怕刘诗诗这种,原来我们被骗了十几年

慎独赢
2024-04-15 21:35:02
退休后的李修平,虽已61岁,但气质不减当年,更有韵味

退休后的李修平,虽已61岁,但气质不减当年,更有韵味

喜文多见01
2024-04-07 11:53:20
男大学生反击醉汉被刑拘一事惊动高层,3大疑点或让民警遭惩​

男大学生反击醉汉被刑拘一事惊动高层,3大疑点或让民警遭惩​

三月柳
2024-04-15 15:41:02
消息称特斯拉“基本每家门店”都有人被裁,赔偿标准为 N+3

消息称特斯拉“基本每家门店”都有人被裁,赔偿标准为 N+3

IT之家
2024-04-16 15:59:15
场均0分竟当选MVP?CBA都望尘莫及吧:张镇麟欲哭无泪了

场均0分竟当选MVP?CBA都望尘莫及吧:张镇麟欲哭无泪了

篮球快餐车
2024-04-16 00:08:08
41比42惜败首轮游!29岁世界冠军掉链子,网友:难怪得不到重用

41比42惜败首轮游!29岁世界冠军掉链子,网友:难怪得不到重用

体坛知识分子
2024-04-16 06:35:03
曝都美竹诈骗单亲妈妈20万!受害人晒关键证据,都美竹回应惹质疑

曝都美竹诈骗单亲妈妈20万!受害人晒关键证据,都美竹回应惹质疑

飘飘视角
2024-04-16 00:05:22
少年身体不适被母亲拉去体检,没想到医生却说:拉回去准备后事吧

少年身体不适被母亲拉去体检,没想到医生却说:拉回去准备后事吧

静婉谈史
2024-04-16 18:01:08
49岁女人自述:瞒老公出轨16年,回归家庭后,老公却给我致命一击

49岁女人自述:瞒老公出轨16年,回归家庭后,老公却给我致命一击

纸鸢奇谭
2024-04-14 11:19:04
今晚,恐一场恶战!

今晚,恐一场恶战!

金投网
2024-04-16 17:32:57
具俊晔晒与大S多张亲密合照,拍摄地点全是电梯,女方眼神迷离

具俊晔晒与大S多张亲密合照,拍摄地点全是电梯,女方眼神迷离

小七侃娱
2024-04-16 15:32:04
颠覆认知?我国科学家发现:烟草中一种物质,或可降低40%死亡率

颠覆认知?我国科学家发现:烟草中一种物质,或可降低40%死亡率

小鹏有料财经
2024-04-15 15:47:07
河南省委宣传部原副部长朱夏炎接受审查调查

河南省委宣传部原副部长朱夏炎接受审查调查

界面新闻
2024-04-16 19:04:21
2024-04-16 23:10:44

科技要闻

AI圈公开的秘密:天下模型一大抄

头条要闻

白宫回应"为何没有拦截对乌空袭":乌克兰不是以色列

头条要闻

白宫回应"为何没有拦截对乌空袭":乌克兰不是以色列

体育要闻

CBA最佳外援的含金量还在涨

娱乐要闻

44岁霍建华街头骑单车,状态真好!

财经要闻

分红不达标是否会被退市?证监会回应

汽车要闻

广汽本田极湃2溜背造型 本田人间清醒!

态度原创

本地
家居
旅游
教育
公开课

本地新闻

我和我的家乡|曲阳石雕,让石头“活起来”

家居要闻

浮光载笔 柔和与留白奏响温润序章

旅游要闻

去了第一代网红城市,我后悔了

教育要闻

女大学生荡秋千,大妈因孙子要玩将其驱赶,网友:都不是省油的灯

公开课

反抗痛苦,最好的方式就是读书

无障碍浏览 进入关怀版
×