网易首页 > 网易科技 > 网易科技 > 正文

百度发布Deep Speaker:声纹识别的端对端系统

0
分享至

(原标题:百度发布Deep Speaker:大规模声纹识别的端对端系统)

日前,百度美研院宣布了其在声纹识别上所取得的突破性成果。研究表明:利用深度学习的方法比传统的i-vector方法在识别准确率上获得了显著的提高。

声纹识别算法寻求从音频中识别说话者的身份。两个常见的识别任务是确认(说话者是不是他宣称的那个人)和说话者身份识别(在一群未知的说话者中确认声音的来源)。

该项技术已经有了各种应用。例如,声纹可以用来登录设备。说话者确认也可以作为金融交易的额外安全措施。此外,类似于智能家居助手之类的共享设备也可以利用这项技术来提供个性化的服务。

最近使用神经网络来进行声纹识别的论文已经改进了传统的i-vector方法(参考Interspeech教程的原始论文或者幻灯片)。i-vector方法认为说话内容可以被分为两个部分,一个部分依赖于说话者和信道可变性,另一个部分依赖于其它的相关因素。i-vector声纹识别是一个多步过程,其涉及到使用不同说话者的数据来估计一个通用的背景模型(通常是高斯混合模型),收集充分的统计数据,提取i-vector,最后使用一个分类器来进行识别任务。

一些论文用神经网络代替了i-vector流水线的方法。其它研究者要么训练了一个文本相关(使用者必须说同样的话)的端对端语者识别系统,要么训练了文本独立(这个模型与说话内容不相关)的端对端语者识别系统。我们介绍Deep Speaker:一个端对端的神经声纹识别系统,它在文本相关和文本独立的场景下都取得了良好的效果。这意味这个系统可以被训练来识别谁在说话,无论是当你对你的家庭助手说“wake”或者你在会议中发言。

Deep Speaker由深度神经网络层组成,从音频中提取特征,基于余弦相似性的时间池和三元组损失(triplet loss)。百度美研院探究了ResNet激活的卷积模型和现有模型在提取声学特征上的效果。

说明:在这里百度美研院使用了人脸识别中采用的三元组损失。在训练过程中,他们选择了一个说话者的话语,然后计算一个嵌入(标记为“Anchor”)。再产生两个嵌入,一个来自相同的演讲者(标记为“Positive”),一个来自于不同的演讲者(标记为“Negative”)。在训练过程中,其目标是让Anchor与positive嵌入之间的余弦相似度高于Anchor与negative嵌入之间的余弦相似度。

百度美研院展示了Deep Speaker在三个不同数据集上的有效性,包括文本相关和文本独立的任务。其中之一的UIDs数据集包括大约250000名说话者,是知识文献中最大的数据集。实验结果表明:Deep Speaker要明显优于基于DNN的i-vector方法。例如,在一个文本独立的数据集中随机挑选出100个演讲者,Deep Speaker在说话者身份确认任务上的错误率是1.83%,正确率是92.58%。相比于基于DNN 的i-vector方法,它降低了50%的错误率,提高了60%的正确率。

说明:在实验中百度美研院所使用的数据集是UIDs,XiaoDu,和Mandarin。UIDs和XiaoDu是普通话数据集,Mturk是英语数据集。UIDs和Mturk是文本独立的数据集,XiaoDu是文本相关的数据集,其基于百度的唤醒字(wake word)。为了在不同大小的训练集上做实验,他们用了全部的UIDs数据集(250,000)和它的一个子集(50,000)。在评估阶段,他们选择了一个Anchor,然后再从测试部分随机地选择1个Anchor positive样本和99个Anchor negatives样本。

团队还发现Deep Speaker学习到了与语言无关的特征。当在普通话语境下训练时,Deep Speaker却能在英文确认和识别的任务上达到5.57%的错误率和88%的正确率。此外,先用普通话再用英文训练可相比于只用英文训练,提高了英文识别的准确率。这些结果都显示出尽管不同的语言听起来非常不同,深度语者却学习到了跨语言的声音特征。这些结果与Deep Speech 2的结果类似,同样的架构都可以用来辨认不同语言的声纹识别。

相关推荐
热点推荐
唐山大地震救灾士兵离奇退伍,临终坦白:竟是看到了不该看的东西

唐山大地震救灾士兵离奇退伍,临终坦白:竟是看到了不该看的东西

小红帽笔记
2023-08-07 18:35:01
“去中化”失败?苹果库克连夜撤回中国,富士康郭台铭被耍了?

“去中化”失败?苹果库克连夜撤回中国,富士康郭台铭被耍了?

时代读财
2024-03-29 19:17:12
愚蠢的美国人和聪明的中国人

愚蠢的美国人和聪明的中国人

不死好鸟
2024-03-22 23:57:47
马斯克宣布Starlink在阿根廷开通服务

马斯克宣布Starlink在阿根廷开通服务

界面新闻
2024-03-28 07:59:08
最牛逃犯:在家乡建行宫圈养10位情妇,最小的仅18岁,至今未落网

最牛逃犯:在家乡建行宫圈养10位情妇,最小的仅18岁,至今未落网

历史八卦社
2023-11-29 17:54:14
央视开播!40集扫黑除恶大剧来袭,张晞临萨日娜作配,阵容雄厚

央视开播!40集扫黑除恶大剧来袭,张晞临萨日娜作配,阵容雄厚

清闲小官
2024-03-29 12:41:09
先正达集团终止IPO申请,公司及保荐人提交撤回文件申请

先正达集团终止IPO申请,公司及保荐人提交撤回文件申请

第一财经资讯
2024-03-29 17:03:11
5-15!亚洲劲旅输麻了:7连败+主帅下课,不胜就出局,远不如国足

5-15!亚洲劲旅输麻了:7连败+主帅下课,不胜就出局,远不如国足

侃球熊弟
2024-03-28 22:57:01
海南98人涉黑案,“黑老大”因病死亡

海南98人涉黑案,“黑老大”因病死亡

鲁中晨报
2024-03-29 09:49:14
父母早逝,哥哥供我读到研究生,因为100000,我果断跟他断了关系

父母早逝,哥哥供我读到研究生,因为100000,我果断跟他断了关系

我是三月鱼H
2024-03-29 19:24:03
2000年,奄奄一息的赵丽蓉在家人的帮助下穿好寿衣,亲自立好遗嘱

2000年,奄奄一息的赵丽蓉在家人的帮助下穿好寿衣,亲自立好遗嘱

回京历史梦
2024-03-23 13:40:18
特朗普再出狂言,打不赢中国汽车,就抢夺中国的产业链?

特朗普再出狂言,打不赢中国汽车,就抢夺中国的产业链?

探史寻源
2024-03-29 12:00:19
张兰曝光录像:玥儿受伤惨状,徐家突击带走孩子,惊心动魄

张兰曝光录像:玥儿受伤惨状,徐家突击带走孩子,惊心动魄

娱乐圈酸柠檬
2024-03-29 17:18:19
孙颖莎的意外爆冷有3大原因,给王曼昱让路终于成功,奥运也稳了

孙颖莎的意外爆冷有3大原因,给王曼昱让路终于成功,奥运也稳了

阿信点评
2024-03-17 21:17:45
突发,至少45人死亡!黄金又暴涨

突发,至少45人死亡!黄金又暴涨

中国基金报
2024-03-29 08:15:16
终于判了,双双死刑!

终于判了,双双死刑!

猫小姐Coco
2024-02-02 10:07:38
村上春树说:世界上最幸福的事,就是你没有一个朋友依然活得快乐

村上春树说:世界上最幸福的事,就是你没有一个朋友依然活得快乐

小白兔趣闻
2024-03-26 20:35:45
汪小菲求婚成功!再次成为台湾省女婿,大S也发文祝福:早生贵子

汪小菲求婚成功!再次成为台湾省女婿,大S也发文祝福:早生贵子

八点半克
2024-03-28 22:07:40
A股:又有消息出炉,下周,A股要继续大涨还是准备下跌了?

A股:又有消息出炉,下周,A股要继续大涨还是准备下跌了?

财经大拿
2024-03-29 14:59:45
新加坡队长:如果亚洲球员有本事,像武磊去西班牙能得到更好待遇

新加坡队长:如果亚洲球员有本事,像武磊去西班牙能得到更好待遇

直播吧
2024-03-28 19:17:22
2024-03-29 20:26:44

科技要闻

雷军:我们是卷王,建议BBA车主感受下时代

头条要闻

拉夫罗夫:5月21日后可能不再承认泽连斯基为乌总统

头条要闻

拉夫罗夫:5月21日后可能不再承认泽连斯基为乌总统

体育要闻

拒绝为国出战,他是足坛"天选打工人"

娱乐要闻

胡夏被曝有孩子!工作室火速辟谣

财经要闻

张维迎:如何正确理解企业家精神?

汽车要闻

找回久违的开怀大笑 试驾小米SU7 Max

态度原创

本地
房产
亲子
时尚
公开课

本地新闻

专访|张伟潮:最年轻的龙头专职制造者

房产要闻

官宣!三亚这片区迎重大教育配套!周边楼盘、小区最全盘点来了!

亲子要闻

宝宝睁着大大的眼睛叫爸爸,软糯糯的声音听的人心都化了!

孙艺珍生完孩子,玄彬老了十岁

公开课

30岁之前,你要学会的13件事情

无障碍浏览 进入关怀版
×