网易科技讯9月15日消息,网易科技主办的第49期五道口沙龙——智能音箱抢滩站活动中做了主题为《小米智能语音服务》的演讲。王刚从智能硬件生态链的角度,分享了小米智能音箱在智能语音服务方面的思路。
王刚表示,小米的智能设备的联网总量现在超过6000万,每天产生的数据量有200多T,这构成了小米构建人工智能的基础。每个智能化产品落地在语音交互上的需求都非常不一样,在不同属性之下怎样落地语音功能,同时结合自己的大数据和机器学习优势去构建高效的语音交互平台,是小米主要思考的问题。
因此,对于语音交互,小米的思路不是从音箱角度,而是思考,在家庭里的语音交互到底应该是怎么样的。智能家庭的控制、内容和工具是家庭场景中最常用的功能,未来一个开关、在屋里的投影器,家里的电饭煲都有可能成为语音交互的终端。
基于不同场景,小米希望与不同公司合作,打造开放平台——水滴平台。水滴平台上面可以对接各种各样的语音技能,输出优点是、音箱、手机,有无屏设备、小屏设备、大屏设备,设备针对的用户群又不一样,不同型号的设备所面对产品的交互场景、落地方式都不一样。
除了家庭场景还有车载场景、户外场景,在每个场景下打造多场景、多中心的交互。
王刚表示,未来的语音交互一定会过渡到多个中心,在更远的将来就变成去中心化,不是一个设备,它可能是所有设备都具备语音交互能力。(张潇潇)
以下为小米智能服务总监王刚演讲全文:
王刚:大家下午好,我是来自小米的王刚。负责语音交互。
小米面临的问题可能和今天的题目“智能音箱抢滩战”不太一样,因为小米面临的智能硬件,从手机到电视到音箱到生态链智能设备,种类非常多,今天我也想借此机会给大家讲讲小米在这方面面临的问题以及我们的思考。
基于小米手机,我们有2亿用户,上面有非常多的Apps,超过千万级日活的App有8个,这些App多多少少都会思考在语音场景下怎样让用户在内容和功能上的交互更有效率。
同时看生态链,我们有非常多的智能设备,在家庭方面有手表,小孩的,还有户外运动场景的,我们智能设备的联网总量现在超过6000万,不同智能硬件所思考的语音需求种类非常繁多。
每天我们面对的数据量有200多T,这其实构成了我们构建人工智能的基础。我们面对大量智能化产品,每个智能化产品落地在语音交互上的需求都非常不一样。
比如在电视、在音箱、在故事机上、在小学儿童手表上……大家可以想像,每个产品都具有自己特定的产品属性,在这个属性之下怎样落地语音功能,同时小米要结合自己的大数据和机器学习优势去构建这样一个高效的语音交互平台。
小米的人工智能电视是今年3月份首次发布的,在这个电视上我们看到最开始的遥控器是极简遥控器,只有9个键,在当时的情况下,这个遥控器是一个划时代的创新,有了这个遥控器以后,所有厂商智能电视的遥控器都变成9键了。但9键遥控器在用户找片时输入变得非常困难,用汉语拼音至少需要花半分钟时间,但有了语音,找片子就是一句话的事儿,所以有语音和没语音的区别是,语音就像打开了一个新世界,让电视屏幕一下活了起来,电视原来只是用来看的,但自从有了语音之后,我们发现用户用语音遥控器找片的比例在逐步降低,他通过遥控器可以干更多事儿,除了找片以外,我们将语音交互智能能力更多加载在电视上,譬如说可以用电视打开智能家庭,用电视打开菜谱(这是我们跟海知科技公司一起合作的),用电视可以查天气、上闹钟、查节假日时间。
电视上用语音的交互就像为电视这块屏幕开启了一个新的世界。
小米AI音箱进入到公测阶段,7月26日发布,这个月底正式拍卖,小米在智能音箱上打磨用户体验其实就是结合小米自己的优势,来看一段小视频。
我来解说一下:
用户说“早上好”的时候它可以帮助用户打开智能窗帘,进行闹钟提醒,可以通过它设置家和公司的位置去提醒它现在的路况方式怎么样。
我们的智能电饭煲可以在智能家庭里自动根据场景设置,在他回家前帮他把饭煮好,在他离开家的时候可以通过一句话让家里所有智能设备设置到离线场景。同时打开安全装置,(主人)离开之后,扫地机器人启动,开始清扫。
回家之后设置到回家场景,回家后摄像头就可以关了,打开电视,扫地机器人充电。
这是睡眠场景。
刚才那个音箱是结合智能家庭的场景,小米其实是把我们的硬件价格做得非常便宜,同时质量非常高,所以它进入千家万户联网的设备有6000万,我们做智能音箱也是这个思路,我们发布的音箱价格是299,在业界应该是价格最便宜的,同时我们所有的设备之间是互联的,互联之后可以产生一些化学反应,让用户在跟音箱互动时整个家庭里所有智能设备的操作都可以变得智能化,让我们未来的家庭操作变得非常方便。
这是我们的生态链,目前已经接入了语音交互的场景,包括小寻儿童手表、华米手表、蓝牙耳机。
接入不同设备时面对的场景不一样,我们不断积累这个场景下需要的到底是什么,每个产品每个场景需要的功能、内容都是不一样的,所以我们需要有一个高度定制化的平台,让这个产品的落地更高效,在产品体验上跟我们的生态链公司和自己的产品保持高效的迭代和互动。
当然,小米本身整个硬件平台非常大,对我们来讲我们思考这件事其实是希望只做平台,希望更多合作伙伴跟我们一起干这件事,今天在座的公司很多都跟我们有密切合作,譬如思必驰,思必驰语音识别真的非常靠谱,不管是远场、中场、近场,声音非常嘈杂的情况下识别也非常好,我们的语音识别其实是非常开放的,我们有8家ASR的语音识别厂商,还有TTS(语音合成厂商),我们都是非常开放的,每家厂商都跟我们有密切合作,只要体验好、技术好,我们都愿意合作。蜻蜓也跟我们有非常紧密的合作,蜻蜓的电台内容是我们见过的最干净的数据,所有数据应该都是蜻蜓经过非常专业的人工运营,PGC数据非常干净,这能带给用户非常好的体验。
在座的海知科技有非常强的语音交互和产品落地能力,刚才讲了,在电视屏幕下直接跟电视说“打开菜谱,红烧肉怎么做”,就可以有一个图形化的语音交互。
小米电视的语音能力我们是对外开放的,谢总的海知团队在这方面构建了非常良好的语音体验,当然在音箱上谢总的团队也给了用户非常好的体验。
小米构建的平台是非常开放的,不论是技术型公司、内容型公司,还是许多RP能力,具有语音产品落地能力的公司,甚至我们将来想把开放平台的门槛开放,可能没有服务器也没有RP的处理能力,同样可以开发非常方便的语音技能,给用户带来相对的功能。
我们开放平台的名字叫水滴平台,我们的水滴平台上面可以对接各种各样的语音技能,输出优点是、音箱、手机,有无屏设备、小屏设备、大屏设备,设备针对的用户群又不一样,不同型号的设备所面对产品的交互场景、落地方式都不一样。
回到语音交互产品本身的思考,我们不是从音箱角度想这个问题,可以认为音箱是家庭里的设备,其实我们在想,在家庭里的语音交互到底应该是怎么样的,所以在家庭下我们认为智能家庭的控制、内容和工具是最常用功能,音箱在美国证明了成功,所以在中国的发展非常自然,但其实小米第一件事情做的是AI电视,这也是家庭场景中非常重要的中心,同时AI控制器,未来一个开关、在屋里的投影其,家里的电饭煲都有可能成为语音交互的终端,这些终端怎样进行良好的语音交互体验,这是家庭场景方面。
除了家庭场景还有车载场景、户外场景,在每个场景下打造多场景、多中心的交互。
我们绝对不认为智能音箱是家庭的中心,现在是一个中心,未来的语音交互一定会过渡到多个中心,在更远的将来就变成去中心化,不是一个设备,它可能是所有设备都具备语音交互能力。
我这边就分享到这里。