网易首页 > 网易科技 > 智能硬件 > 正文

巨头都在关注 我们距离自然人机对话还有多远?

0
分享至

(原标题:Why Google, Microsoft and Amazon Love the Sound of Your Voice)

网易科技讯 12月14日消息,彭博社发布文章称,要能够与我们的电子设备进行自然的对话,那语音识别技术必须要有更加显著的改善。为此,各家科技巨头纷纷积极收集任何它们能够收集到的语言、口音和方言语音。

以下是文章主要内容:

亚马逊的Echo智能音响让家家户户都有带人工智能的个人助手变得切实可行。那些拥有该款声控设备的人都对Alexa赞誉有加,称赞它能够帮助通过Uber叫车,订购比萨饼,又或者检查10年级学生的数学作业。亚马逊称,每天有逾5000人表达对Alexa的喜爱。

另一方面,Alexa信徒们也知道,除非你缓慢地用非常清晰而的语言去跟她说话,否则她很可能会跟你说,“对比起,我不知道那个问题的答案。”有位顾客在亚马逊的网站上评价道,“我爱她,我恨她,我爱她。”不过他还是给于Alexa五星评价。“你很快就会学会如何用一种她会明白的方式跟她说话,这就像是跟一个不高兴的小孩子说话一样。”

语音识别在过去几年里取得了很大的进展。但这还不足以令该技术普及到日常生活的方方面面,还不足以引领人机交互新时代的到来,还不足以让人们轻松自如地与身边所有的设备(如汽车、洗衣机和电视机)进行交谈。在可预见的未来里,这种情况可能还会延续。

发展障碍

那么是什么因素导致语音识别还不能更进一步呢?部分因为驱动该项技术的人工智能还有不小的改进空间。另外,所需数据严重缺乏——即往往嘈杂环境下多种语言、口音和方言的人类语音的音频。

因此,亚马逊、苹果、微软和百度纷纷着手在全球范围内收集海量的人类语音数据。微软在全球各地设立据点,记录志愿者在家庭环境中说话的声音。亚马逊无时无刻都在将Alexa请求上传到其庞大的数据库。百度在中国忙于收集各种方言的语音。收集过后,他们会将那些数据用于教导他们的计算机如何分析、理解和响应语音指令和请求。

对于这些科技巨头而言,挑战在于找到方法去捕捉自然真实的对话。负责领导百度在加州森尼维尔的人工智能实验室的亚当·科茨(Adam Coates)指出,语音识别的准确率即便有95%也不足够。“我们的目标是将错误率压低到1%以下。”他说,“做到了这一点,你才能够真正相信设备理解你说的话。那将会是变革性的进展。”

不久以前,语音识别还处于非常初期的发展阶段。在2006年的一次演示中,微软运行于Windows的语音识别技术的早期版本在众多分析师和投资者面前竟然将“mom”(妈妈)转录成“aunt”(阿姨)。苹果5年前推出Siri时,该个人助手频频出错,备受嘲笑。它经常给出错误的结果,又或者不能够准确听清问题。被问到吉莉安·安德森(Gillian Anderson)是不是英国人时,Siri却展示了一系列的餐馆。如今,微软称其语音引擎的准确率已经不亚于专业转录员,Siri正赢得一定的尊重,Alexa也让人们看到了未来的希望。

神经网络

这一进展很多程度上要归功于神奇的神经网络。神经网络是一种基于人脑架构的人工智能形式,它不需要明确的程序化就能学习,通常只需要大量广泛多样的数据。语音识别引擎消化的语音数据越多,它就越能够理解不同的语音,就越接近于实现在多种情景中用多种语言进行自然对话的最终目标。

因此,各大巨头在争夺大批的语音资源。“我们给系统注入的数据越多,它的表现就会越好。”百度首席科学家吴恩达(Andrew Ng)表示,“正因为此,收集语音成为了一种资本密集型的活动;有这么多数据的机构组织并不多。”

当业界在1990年代开始积极发展语音识别技术时,微软等公司主要依靠来自研究机构公开的可用数据,比如语言学数据联盟。该语音与文本数据库于1992年创立于宾夕法尼亚大学,拥有美国政府的支持。后来,科技公司们纷纷开始收集自有的语音数据,部分公司通过给志愿者录音进行收集。如今,随着声控软件日益普及,它们从自有的产品与服务收集大量的数据。

当你叫你的手机去搜索内容,播放歌曲,又或者提供导航路线时,你很有可能会被公司录音。(苹果、谷歌、微软和亚马逊均强调有匿名化用户数据来保护个人隐私。)在你问Alexa天气怎么样或者体育比赛的比分时,设备会利用你的语音请求来改进其对自然语言的理解(尽管“她”不会偷听你的对话,除非你有说她的名字)。Alexa项目首席科学家尼克·斯特罗姆(Nikko Strom)指出,“通过我们的设计,Alexa会随着你的使用的增多而变得越来越智能。”

两大挑战

语音识别的一大挑战在于,使得该项技术熟悉各种各样的语言、口音和方言。也许,这一点在中国尤为重要。为了采集全国各地的方言语音,百度今年在春节期间展开了一项营销推广行动。该搜索巨头称该举是“方言对话项目”,并向人们承诺,如果他们参与进来,他们就能帮助引领人人都能用自己的方言跟百度对话的未来。在两周的时间里,该公司录得超过1000个小时的语音来接入它的计算机。很多人之所以愿意无偿参与进来,是因为他们为自己家乡的方言感到骄傲。四川的一位高中教师对于该项目感到非常兴奋,因而他号召全班学生录制了超过1000首用四川话朗读的古诗语音。

另一挑战是:教导语音识别技术理解嘈杂背景下(比如在酒吧和在体育场)传来的指令。微软部署了一款名为Voice Studio的Xbox应用来收集用户在进行射击游戏或者看电影时的对话声。该公司为参与者提供包括积分和游戏装备在内的各种奖品,吸引了数百位愿意贡献自己玩游戏时的聊天声音的用户。该项目在巴西尤其奏效,微软在当地的子公司在Xbox主页面上大力推广Voice Studio应用。那些数据用来打造Cortana的巴西葡萄牙语版本。该版本于今年早些时候推出。

各家公司也在针对特定的情境设计语音识别系统。微软一直在测试能够回答机场旅客的请求的技术,它希望其技术能够不受机场持续不断的航班通知声音的干扰。该公司的技术目前还被应用于麦当劳外卖车道的自动订餐系统。经过训练,它能够做到不受诸如孩子尖叫声的各类杂音的感染,因而能够准确理解复杂的订单指令,甚至能够分辨出用户想要的调味品。亚马逊则在汽车中进行测试,它希望Alexa能够克服道路噪声和敞开车窗带来的挑战。

少用数据

在从世界各地收集数据的同时,科技巨头们也在想方设法地用更少的数据来改进语音识别技术。在微软研究语音识别逾20年的首席语音科学家黄学东指出,公司在麦当劳测试的技术比其它使用多得多的数据的语音识别系统要更加精确。“即便使用的数据不是最多的,你也总能够取得突破。”

谷歌总的来说也奉行少即是多的理念,它在部署零碎策略来利用难以理解的声音单元构建词语和短语。该公司对于其语音识别系统的目标是,只需一个变化就能解决多个问题。对于所积累的数据集,谷歌会将数万个通常只有两到五秒长的音频片段连在一块。谷歌的研究人员弗朗索瓦兹· 比伦发斯(Françoise Beaufays)指出,这一过程需要较少的运算能力,更加容易测试和调整。百度方面则在研究更加高效的算法来简化语言的学习。

问问像吴恩达这样的研究人员,什么时候才能够跟数字助手进行自然的对话。没有人知道答案。神经网络仍旧非常神秘,即便对于那些专家而言也是如此。研究人员目前的工作很多都是反复试验;在一处地方进行一项改动后,你永远都无法确定其它地方会产生什么样的变化。鉴于当下的技术和方法,这一过程很可能要持续很长一段时间。不过,吴恩达、黄学东、比伦发斯以及其他的科学家认为,你很难预料什么时候会出现那种大大加速研究进程,让Alexa和Siri变成真正的交谈者的突破。(皓慧)

相关推荐
热点推荐
看完网飞版《三体》,海外观众也坐不住了……

看完网飞版《三体》,海外观众也坐不住了……

中国日报
2024-03-29 11:56:00
韩国网友提问:既然中国如此强大,那为什么不敢与韩国开战?

韩国网友提问:既然中国如此强大,那为什么不敢与韩国开战?

真猫爷的渔场
2024-03-28 17:51:15
刘和平:信号已经发出!美国正从欧洲抽身,卯足了劲对付中国

刘和平:信号已经发出!美国正从欧洲抽身,卯足了劲对付中国

直新闻
2024-03-29 17:57:35
张雪峰说:寒门最大的劣势,是成长道路上没人引领,错失很多机会

张雪峰说:寒门最大的劣势,是成长道路上没人引领,错失很多机会

小白兔趣闻
2024-03-28 20:17:30
网传山西柳林县一“交警队公职人员‘入室’打砸”?官方:对高某依法做出行拘处理

网传山西柳林县一“交警队公职人员‘入室’打砸”?官方:对高某依法做出行拘处理

界面新闻
2024-03-29 12:58:54
律师立功!曝李铁最开始被查是9位数 翻供后变7764万 留住一条命

律师立功!曝李铁最开始被查是9位数 翻供后变7764万 留住一条命

体坛扒客
2024-03-28 22:37:58
支持俄方的网友现在真的是欲哭无泪了

支持俄方的网友现在真的是欲哭无泪了

清晖有墨
2024-03-28 15:24:08
曝李铁已被剃光头,刘海也没了,媒体人:他出庭时戴的应该是假发

曝李铁已被剃光头,刘海也没了,媒体人:他出庭时戴的应该是假发

体坛扒客
2024-03-29 00:24:07
财政一难,领导也撑不住了

财政一难,领导也撑不住了

曹多鱼的财经世界
2024-03-29 09:34:50
雷军,退钱!!

雷军,退钱!!

初善投资
2024-03-29 15:02:42
上海飞呼和浩特一航班旅客称遇惊魂90秒,空姐带哭腔安慰,航空公司回应

上海飞呼和浩特一航班旅客称遇惊魂90秒,空姐带哭腔安慰,航空公司回应

潇湘晨报
2024-03-29 16:24:05
媒体人:辽宁男篮签约前NBA老鹰、骑士队球员谢里夫-库珀

媒体人:辽宁男篮签约前NBA老鹰、骑士队球员谢里夫-库珀

懂球帝
2024-03-29 14:14:07
俄媒:俄执法人员称4名直接参与音乐厅恐袭人员在行动前吸食了毒品

俄媒:俄执法人员称4名直接参与音乐厅恐袭人员在行动前吸食了毒品

环球网资讯
2024-03-29 13:32:12
盒马要求部分全职员工转外包,不再缴五险一金 律师:不合法,要赔偿

盒马要求部分全职员工转外包,不再缴五险一金 律师:不合法,要赔偿

红星新闻
2024-03-29 13:25:20
美首位华裔副总统参选人亮相,她令特朗普、拜登都着急!

美首位华裔副总统参选人亮相,她令特朗普、拜登都着急!

新民晚报
2024-03-29 09:26:39
定金无法退款,小米回应!有人加价数千元转让小米SU7订单!李斌:小米太猛,乐道都不好定价

定金无法退款,小米回应!有人加价数千元转让小米SU7订单!李斌:小米太猛,乐道都不好定价

每日经济新闻
2024-03-29 16:19:19
躺在水晶棺里很多年的毛主席,如今看上去也还是和睡着了一般安详

躺在水晶棺里很多年的毛主席,如今看上去也还是和睡着了一般安详

回京历史梦
2024-03-28 17:37:56
足坛反腐涉案金额:刘磊52万,其余6人全部超千万,李铁1.2亿最多

足坛反腐涉案金额:刘磊52万,其余6人全部超千万,李铁1.2亿最多

直播吧
2024-03-29 16:13:23
突发!江西一汽车撞人致2死3伤,肇事者逃跑画面曝光,网传涉毒驾

突发!江西一汽车撞人致2死3伤,肇事者逃跑画面曝光,网传涉毒驾

求实者
2024-03-29 18:25:59
一扭屁股惊天下的张元英,还没进入财阀视野,先被网友“刨坟”

一扭屁股惊天下的张元英,还没进入财阀视野,先被网友“刨坟”

蒙羽其艺
2024-03-29 14:34:32
2024-03-29 19:18:44

科技要闻

雷军:我们是卷王,建议BBA车主感受下时代

头条要闻

万科上市30多年来首次不分红 三名高管降薪至每月1万

头条要闻

万科上市30多年来首次不分红 三名高管降薪至每月1万

体育要闻

拒绝为国出战,他是足坛"天选打工人"

娱乐要闻

胡夏被曝有孩子!工作室火速辟谣

财经要闻

张维迎:如何正确理解企业家精神?

汽车要闻

找回久违的开怀大笑 试驾小米SU7 Max

态度原创

房产
数码
艺术
家居
时尚

房产要闻

一季度广州房地产回温,零售空置率环比下降2.9%

数码要闻

石头科技发布旗舰扫拖机器人系列新品

艺术要闻

艺术开卷|从闺阁、庭院到郊野,古画中的女性生活空间

家居要闻

弧岛栖居,极致温柔奶油底色

孙艺珍生完孩子,玄彬老了十岁

无障碍浏览 进入关怀版
×