网易科技讯 5月29日消息,网易科技开物沙龙第四季“智能语音与聊天机器人专场”今日下午在北京举行,云知声 CTO 梁家恩在现场分享了他对物联网人工智能服务的理解。他认为人工智能前面有两个春天,但没有达到预期又衰落下去,而今天已经有很多产业界力量开始进入到行业,以前都是科研力量推动这个事情,所以第三波浪潮会有比较多的成果出现。现在,人工智能已经进入产业化阶段。
以下为梁家恩现场分享观点整理:
其实云知声更多是定位于为物联网人工智能服务。我的演讲题目是“芯系云端,智享未来”。
大家知道今年是人工智能60周年,非常火爆,包括AlphaGo,把整个行业挑动到非常火热的局面,我们的判断,现在人工智能已经进入到了产业化阶段,大家知道,人工智能前面有两个春天,但没有达到预期又衰落下去,因为今天已经有很多产业界力量开始进入到行业,以前都是科研力量推动这个事情,所以第三波浪潮会有比较多的成果出现。
人工智能的看法分为三个阶段:感知、认知和通用智能。
现在是从感知到认知的变化过程,感知过程主要是从信号到符合辨识的问题,以前机器智能只能接受确定性符号,对于图像、语音这种变化性比较大的符号是没办法解决的。现在随着深度学习的推动个,从2006年在图像上取得突破以来,现在刚好10年时间,不管是语音还是图像都取得了大的突破性进展,包括深度学习也在自动驾驶方面起到了非常好的结果。
到了认知智能阶段,研究也有好长时间了,但认知智能还不像感知智能非常好地做了这个事情,还有很多事情要做。
通用智能还有比较长的距离,大家预期认为未来在计算能力、应用数据积累起来以后,机器人的人工智能有可能达到甚至超越人类智能的水平,但这可能需要花比较长的时间,我们还是一步步往前走。
现在是物联网时代,从移动行业开始进入到万物互联的行业,未来可能不会再出现手机这样的设备,每个人都用,而是有非常多的花样做这件事情,很多应用会非常多样化,从现在各种智能设备已经可以看得到了。
从我们的角度来看,人工智能要想服务好物联网智能化有三个问题需要解决:
最根本的还是服务体验的问题,设备多样化以后会出现在各种各样复杂产品中,满足人各种各样的需求,服务如何做到极致体验,这是很重要的问题。
服务要提升,从我们的角度来看,我们是从语音交互切入这个行业的,我们有两个问题需要解决:
1、场景适应,在现在的环境下做语音交互,最怕的是噪音、口音以及各种场景的不一致性,非常多复杂场景,很多词都是非常生僻的词,就像医疗行业,你让我去写我都没法儿写出来,更别说让机器写。
2、交互的问题,现在的交互都是比较简单的对话,未来我们希望它能够像人一样非常好地交流,像微软的小冰小娜,现在尝试还是非常棒的。
这块云知声从智能交互作为切入点,包括识别、合成、对话这块,往后端走,要把我们的服务往上面挂,因为交互不是用户的需求,只是改变用户获得的途径,最终想要得到的服务,服务了体现了一种智能。
往前来看是信号层,因为只有信号层的问题解决掉才有可能实用化,因为以前人工智能都是在实验室里,现在刚刚从实验室走到应用市场,有很多问题需要解决,以前我们推一些算法,非常快,但经过这几年做下来,发现每一个落地做得非常扎实,需要花费的功夫都非常大,所以我们推了一个新的方案,新代表硬件,解决两个问题,一是远距离说话,需要解决回响、回声的问题,另外一个是功耗的问题,比如电池,到目前为止还没有很好的解决方案。
芯片,一是降噪和功耗,它是智能感知的第一步,也是我们获取数据的第一入口,如果没有很好的方案,我们很难收集非常好的数据。二是终端,要解决自然交互的问题,现在是软硬一体的模式,我们没有在App上做任何尝试,因为我们理解,未来智能交互最自然的方式是交互能力跟硬件结合在一起,所以像今天我们谈论的话题,和机器人结合,其实是非常自然的结合方式,我看到一个机器人,第一感觉是要跟它说话,而不是找它的按键,这是一个很直白的交互;另外一点是应用场景的适配,应用场景复杂,我们需要有很好的方式去解决适配的问题。
云端才是真正智能的,用户想要的内容其实是服务,这是基于大数据的优化,有了大数据我们才能学习,其实现在所有智能的学习能力还是在有监督的情况下做学习,我认为这个学习还不是真正人的学习,人的学习性非常强大,哪怕3岁小孩,其实学习能力都很强,不管是学习语言还是学习概念。另外一点,在机器有更多数据的情况下越学越强大,这是我们需要解决的问题。
通过云端芯,我们这样理解这个行业,可能有云端智能服务的方案,还有芯和端,用于解决教育、家居、医疗、安防、车机、金融等等行业,所以我们的定位和做机器人和各种IOT是不一样的。
我们成立到现在四年时间,有必要做一些案例的落地,一是智能家居,在这些年的智能家居展上,大家知道现在有六大家电厂商,有五家都是用我们的方案做展示。智能车载也非常火爆,在深圳,车载厂商就有将近一百多家,大概有95%的厂商是用我们的解决方案去做车载交互。还有一些是传统行业,包括教育和在线教育,金融、医疗行业,其实它们也非常需要用语音交互的方案解决问题,因为这些行业和IOT的关系不是很密切,更多是私有云的解决方案,但这里面的关键是一样的,如何把人的交互信息用机器来处理,在这三块我们有比较多的案例。
我们在云端也有比较好的结果,首先我们已经覆盖了全国476个城市,另外现在已经有超过9000万台的设备接入,这是直接接入,还有间接介入的。现在我们的日均调用量已经超过了1亿次。
后期语音、语义准确率超过了95%,涵盖60+IoT服务领域的扩展;支持10万+常用指令;另外还有POI,包括影视、音乐等专用词汇,这些方面其实已经达到了5000万以上。
我们是技术起家的公司,在中科院的体系下,包括国内国外的高校,我们也做了很多工作,在人工智能浪潮到来时我们做了一个云端芯的产品体系,去服务于互联网的发展,因为我们认为以后的互联网一定会智能化,要智能化,交互和服务就是永远绕不过去的。