网易首页 > 网易科技 > 网易科技 > 正文

百度语音识别技术取得突破,自称超越谷歌和苹果

0
分享至

今年5月,人工智能大师吴恩达(Andrew Ng)加入了中国互联网先驱百度公司,担任首席科学家职位。当时,吴恩达对他和他的团队在加州桑尼维尔一家新成立实验室可能取得的成果守口如瓶。但是,现在他终于忍不住披露了更出色的语音识别技术,这是智能手机时代引人关注的关键领域。

今天,百度公司发布了这位前谷歌研究员、斯坦福大学教授和Coursera联合创始人的首个研究结果。在12月18日发表于康奈尔大学图书馆(Cornell University Library)arXiv.org网站的一篇论文中,吴恩达和以研究科学家奥尼·汉努(Awni Hannun)为首的十位百度研究院的团队成员共同宣布,他们发明了一种新方法,能更精确地识别语音。这种应用于苹果(Apple)的语音助手Siri和Dictation服务以及谷歌的语音搜索的功能正在变得日益重要。吴恩达表示,在一项评估语音识别系统出错率的基准测试中,百度的Deep Speech语音识别系统击败了包括谷歌和苹果在内的其他技术。

具体来说,Deep Speech在车内或人群中等嘈杂环境下比其他语音识别系统的表现更出色。当然,关键是让语音识别技术在现实世界中真正发挥作用。吴恩达说,测试显示,在嘈杂的背景下,Deep Speech的语音识别能力优于其他几种语音识别系统——谷歌Speech API、wit.ai、微软的 Bing Speech和苹果Dictation,词汇辨识错误率比这几种技术低10个百分点以上。

百度提供了两位大学教授的正面评论。“百度研究院最近的工作有可能颠覆语音识别在未来的应用效果,”卡耐基梅隆大学(Carnegie Mellon University)工程学助理研究教授伊恩·莱恩(Ian Lane)在一份新闻稿中表示。百度公司要求,在今天上午发布论文前不要对外透露细节,因此我们无法联系谷歌、苹果和其他公司发表评论。如果以上各方选择随后发表评论,笔者会补充他们的观点。

像其他语音识别系统一样,百度的语音识别系统是以人工智能技术的一个分支为基础,称为深度学习。这类软件试图(以非常原始的形式)模拟大脑新皮层的神经层活动——大脑80%的思维活动发生在新皮层,因而深度学习系统能够学习如何识别声音、图像和其他数据的数字表现模式——理论上可以识别很多数据。吴恩达在接受采访时说,“第一代深度学习语音识别系统正在接近极限。”

百度团队采集来自9,600人的约7,000小时语音会话,大部分对话是在安静的环境中进行——不过有时讲话者戴着耳机,播放吵闹的背景音,因此他们就要改变自己的音高和语调,就像他们在嘈杂环境中讲话那样。然后,百度团队使用一种称为叠加的物理原理,在这些语音样本中加入大约15种噪音,比如餐馆、汽车和地铁的环境噪音。这些做法实质上把语音样本增加到10万小时的数据。然后,百度团队让语音识别系统学习在所有的噪音环境下识别语音。

吴恩达表示,这种方法比现有的语音识别系统更为简单。他们使用了一系列用来分析音素和语音其他部分的模块,这通常需要对模块进行手工设计,用到被为隐马尔可夫模型(Hidden Markov Models)的统计概率系统,需要大量的人力调适模板噪声和语音变化。吴恩达表示,百度的语音识别系统采用深度学习算法取代了这些模型,这种算法在递归神经网络或者模拟神经元阵列中进行训练,让语音识别系统更加简单。

然而,真正让这种方法可行的原因是强大的新计算机系统,这套系统使用了Nvidia等芯片制造商出品的多枚图形处理器(GPU)。GPU用于在个人计算机中加速图形处理。通过并行连接,这些处理器能够用比普通计算机处理器更快的速度训练语音识别模型,比吴恩达在斯坦福大学和谷歌工作中使用的系统快大约40倍,费用也更为经济合算。“虽然算法很重要,但开发出这套系统,很大程度上要归功于研发过程中的规模化,”他说,这种规模化,不仅在于计算机系统,还在于数据处理量。

如果没有这样的速度,对这么多数据进行分析是不可能做到的。吴恩达表示,这个系统比现有基于GPU的其他系统更为先进。“我们正在进入语音2.0的时代,”他说,“而这仅仅是个开始。”

吴恩达认为,随着互联网用户的文化水平门槛越来越低,他们更愿意使用语音而不是文字,因此语音识别技术的重要性将进一步提升。“让计算机和我们对话是个关键,”他说。吴恩达举了个最近在中国进行搜索查询的例子:“嗨,百度,你好吗?昨天中午我在一家街角小店吃了面条。你知道这家店明天还卖面条吗?”吴恩达承认,到今天为止,为这个请求提供答案依然非常困难,但是他认为更完善的语音识别将起到关键作用。

相关推荐
热点推荐
终于理解汪小菲动辄情绪不稳定了!

终于理解汪小菲动辄情绪不稳定了!

小龙聊数据
2024-04-19 12:08:50
河南女子嫁富豪,闺蜜心情差:一脸科技感,凭啥我不能嫁?

河南女子嫁富豪,闺蜜心情差:一脸科技感,凭啥我不能嫁?

情感舍论汇
2024-04-18 20:14:02
老燕子无了?

老燕子无了?

热闹吃瓜大姐
2024-04-18 21:50:09
广交会只来了一帮挑剔的贫穷国家

广交会只来了一帮挑剔的贫穷国家

君子天道
2024-04-19 21:04:12
中国老人7个改不掉的坏习惯,几乎人人都有?快看看你有吗?

中国老人7个改不掉的坏习惯,几乎人人都有?快看看你有吗?

沫姐美食记
2024-04-19 18:26:50
建议中年男人:冲锋衣尽量别穿“北面、骆驼”,换成这3种更高级

建议中年男人:冲锋衣尽量别穿“北面、骆驼”,换成这3种更高级

潮人志Fashion
2024-04-18 08:27:16
燃气换表导致收费“爆表”?知名编剧发文:人在海南2个月,成都家中产生500多方用气量

燃气换表导致收费“爆表”?知名编剧发文:人在海南2个月,成都家中产生500多方用气量

鲁中晨报
2024-04-18 11:32:05
55岁TVB视帝暴瘦变胶被嘲整容,大反击:眼耳口鼻郁到喎...

55岁TVB视帝暴瘦变胶被嘲整容,大反击:眼耳口鼻郁到喎...

肇庆之星
2024-03-31 09:43:10
就是这张澳洲居民后院的照片, 令无数新西兰人彻底破防!

就是这张澳洲居民后院的照片, 令无数新西兰人彻底破防!

苗苗情感说
2024-04-20 05:13:27
知豆彩虹上市,补贴零售价2.79万元起

知豆彩虹上市,补贴零售价2.79万元起

经济观察报
2024-04-18 20:58:08
德章泰-穆雷自曝遭心理问题:多年来我一直在忍受和逃避痛苦!

德章泰-穆雷自曝遭心理问题:多年来我一直在忍受和逃避痛苦!

直播吧
2024-04-20 07:16:17
纳斯达克100指数跌超1%,奈飞跌超7%,英伟达、Meta、AMD、亚马逊至少跌2%

纳斯达克100指数跌超1%,奈飞跌超7%,英伟达、Meta、AMD、亚马逊至少跌2%

每日经济新闻
2024-04-19 22:38:06
刀片电池存设计缺陷,或将导致几十万比亚迪车主自费更换or召回?

刀片电池存设计缺陷,或将导致几十万比亚迪车主自费更换or召回?

新能源前瞻
2024-04-18 18:58:47
上海“大老虎”落马,仕途履历耐人寻味,被抓前还出席公开活动

上海“大老虎”落马,仕途履历耐人寻味,被抓前还出席公开活动

天闻地知
2024-04-19 09:42:15
1胜13负,0比2输韩国,国奥不去巴黎奥运是对亚洲足球的基本尊重

1胜13负,0比2输韩国,国奥不去巴黎奥运是对亚洲足球的基本尊重

姜大叔侃球
2024-04-19 23:34:08
全球股市集体爆炸!

全球股市集体爆炸!

资本百科
2024-04-20 00:05:37
不满时间安排!罗马声明:我们为欧冠名额做出贡献,却遭不公对待

不满时间安排!罗马声明:我们为欧冠名额做出贡献,却遭不公对待

直播吧
2024-04-20 04:47:18
拜登自称的家族三件事,是否三大瞎话,逗你玩!

拜登自称的家族三件事,是否三大瞎话,逗你玩!

新民晚报
2024-04-19 08:44:24
辛普森死了 “杀妻案”真相来了 目击者打破30年沉默 声称辛普森带着4人杀死前妻

辛普森死了 “杀妻案”真相来了 目击者打破30年沉默 声称辛普森带着4人杀死前妻

娱乐圈酸柠檬
2024-04-19 07:04:43
JK罗琳再发声!称不会原谅哈利波特主演:拒绝接受任何人道歉

JK罗琳再发声!称不会原谅哈利波特主演:拒绝接受任何人道歉

清欢渡语
2024-04-15 21:39:28
2024-04-20 08:58:44

科技要闻

华为今年最关键的事曝光!Pura 70有新消息

头条要闻

小伙在广州地铁广告上投简历 5天有30多家公司联系他

头条要闻

小伙在广州地铁广告上投简历 5天有30多家公司联系他

体育要闻

米切尔这次对线不会输了吧

娱乐要闻

北影节开幕之夜,内娱女星千娇百媚

财经要闻

新华资管香港的秘密:猛投地产或致巨亏

汽车要闻

风神L7预售 东风汽车北京车展阵容公布

态度原创

时尚
教育
旅游
本地
军事航空

放弃牛仔裤吧,入夏是穿“裙子”的季节!遮肉显瘦谁穿谁优雅

教育要闻

沉迷于手机的孩子,看似他们很享受,但是真的快乐吗?

旅游要闻

西宁“下南关”:高原老街的烟火气

本地新闻

春色满城关不住|千阳春日限定美景上线了!

军事要闻

伊朗总统发声 未提及伊斯法罕爆炸声

无障碍浏览 进入关怀版
×