网易首页 > 网易科技 > 智能硬件 > 正文

解密Gmail移动客户端自动邮件回复技术

0
分享至

(原标题:解密:Gmail移动客户端自动邮件回复技术)

深度学习已经在许多工业产品中取得应用。例如Jeff Dean(谷歌大脑负责人)在去年的WSDM会议上指出,谷歌的搜索相关性计算模块,深度学习的三个特征是权重最大的。

并且深度学习算法也大量的应用到了谷歌和百度的机器翻译系统之中,使机器翻译质量提升。本文将介绍另一个深度学习的应用,邮件自动回复

手机版邮件系统的困扰

自动回复是否可以在工业中进行实际应用,一直是人们喋喋不休争论的一个问题,很多人认为对话系统,所利用的自动回复技术只是一个玩物,无法解决用户的刚需。而谷歌,在去年十一月将自动回复技术应用到了Inbox中。

Inbox是谷歌在手机上的邮件客户端,类似于手机上的Outlook。Inbox利用深度学习技术,增添了为一些语义简单的邮件进行自动回复的功能,拟解决“由于屏幕较小,手机邮件回复很不方便”的用户痛点。其中主要解决如下几个问题:

如何选择可回复邮件:当今商务人士邮件众多,很多邮件并不长,据谷歌统计有百分之25%的邮件少于20个词。那么对这些简短且语义好理解的邮件是否可以通过分类进行筛选,交给邮件生成系统是一个有趣的分类问题。

回复的邮件是否可分类:很多邮件的回复类型可枚举,例如问“下午三点是否可以参加XXX会议”,答案无非是“可以参加”,“有事情不能参加”,“我在想想”这三个情况,所以如何通过算法将三种类型的回复进行聚类是一个有现实意义的聚类问题。

如何针对每个类选出最合适的邮件:针对每个类,如何通过自动回复算法生成特定的回复,是一个自然语言处理上的回复生成问题。

系统架构

谷歌于今年KDD会议上,发布了SmartReply的论文。我们首先看SmartReply的架构

从图中可以看到,系统分为四个部分,分别是可回复邮件筛选,回复邮件聚类,回复邮件选择,和多样性回复生成,之后将一一介绍。

可回复邮件筛选机制(Trigger Response)

模块功能

在谷歌的邮件回复系统中,并不是每一封邮件都会给出自动回复的建议。因为有些邮件意思简单明了,机器可以快速的理解,并给出一些回复候选。

例如:今天晚上七点我们开个会讨论一下项目修改方案吧。

这个邮件机器可以快速理解,并通过之后的步骤给出对应的候选方案。然而,还存在着一些邮件结构复杂,机器并不能很好的理解其中含义。

例如:我已经看完你的论文,在你的论文中,公式2的推导出现了错误,我觉得倒数应该用链式法则求解。

总之,在回复之前,需要一个模块判定机器是否可以理解邮件语义,避免在不理解的时候仍然给出邮件回复候选,使用户感到被骚扰。

模块实现方法

可回复邮件的筛选机制归根结底是一个分类问题,即给定训练集合D ={X,Y},X代表文档的特征集合,Y代表文档的标签,学习函数f(x),使得y与f(x)的误差最小。在此任务中谷歌选择了多层感知机作为分类器,多层感知机如下图所示

在此分类任务中,这篇论文使用了一元词汇(Unigram)和二元词汇(Bigram)来对抽取特征,并将同一类的特征进行相加,得到MLP的输入。

这个MLP模型有三个隐层层,每层的激活函数使用了ReLU,且利用DropOut防止过拟合。最终经过试验证明,这个分类模型的AUC为0.854。针对此模块,笔者观点如下:

MLP模型算是文本分类的最简单模型之一,然而简单模型在这个任务上仍能取得不错的效果,这和一些其他的论文得到的结论一致(例如Facebook的FastText,利用简单的结构就可以在分类任务和复杂结构的网络得到近似的效果)。大部分现实分类任务简单,很多简单的模型便可以达到还不错的效果,刻意追求模型的复杂性在简单任务上往往得不偿失。

AI(人工智能)+HI(人类智能)仍然是现在的AI产品不可或缺的一环,即使分类器表现良好达到85%,但在工业级的系统中,仍然会有15%出错,所以SmartReply系统是让用户选择他生成的回复,而不是直接帮助用户进行邮件回复或者邮件书写。

回复生成、聚类、以及多样性选择算法

模块功能

此模块为该应用核心,功能如图所示,当用户收到一封邮件,Inbox会自动生成3个供挑选回复(三个回复在屏幕下侧)。例如,第一封邮件的三个回复分别为:

1. Count us in!

2. We will be there

3. Sorry we won't be able to make it

这样可以加速用户在手机端输入不便,回复邮件较慢的体验。

模块实现方法

此篇文章中,最核心的东西便是回复的生成以及聚类了。和面向开放领域的聊天机器人不同,邮件回复需要对回复进行聚类,之后从每个类别中选一个代表句。

回复聚类的算法如下:

构建图G={V,E},V是图中的点,E是图的边。V由来信,回信,以及回信的特征构成。

首先抽样N个邮件作为顶点,构建顶点集合VR。为每个类别人工选择种子邮件(例如Thank you , Thanks是感谢类的邮件),并将这些邮件VL也放到图G中。此时由于人工的干预,我们知道在特定的类别Ci有{r1,r2...rn}个回复属于此类。

通过词汇特征的抽取,构建G中代表特征的顶点集合VF,如果邮件有该特征则邮件和该顶点进行连接。

之后使用了半监督的聚类方法将邮件进行聚类,并且每隔特定轮次,进行新类别发现,最终得到376类。类别例如(will do, Thanks, I got it等)

回复选择部分并没有什么创新点,是一个基于LSTM模型的排序问题,候选集合是由most frequent的回复邮件构成,值得注意的是此篇所用的LSTM并不是利用一个Dual-LSTM讲发来的邮件和回复邮件分别进行encoding之后计算相似度。而是类似LSTM的生成模型,计算给定所发来邮件O的时候,回复中每个词被生成的概率P(wi|O)

在具体的实际应用中,可以根据场景的不同选择基于深度学习的回复算法。我们可以看到针对回复选择这部分,由于候选回复均为高频回复邮件,所以回复会十分的没有营养,大多基于简单的英文表达(Sure,No,Thanks)等,想必如何让邮件回复和邮件内容正确的呼应起来也是非常值得研究的一个课题,这样可以避免千篇一律的回复,让被回复者有不受尊重的感觉。

在多样性选择方面,按照文章的叙述做了两个后处理。

第一个后处理是重复回复删除,操作具体方法十分简单,首先根据上面所说的邮件排序系统对所有候选邮件进行降序排列,之后从top1开始加入系统要输出的集合OUTPUT中。

之后每个候选回复邮件r在加入OUTPUT时,检测r是否与OUTPUT中的任意邮件属于上面聚类算法所给出的同一个类别,如果不是才可以加入OUTPUT之中。OUTPUT达到3个回复即停止迭代。

第二个后处理是强行生成拒绝倾向的回复。如果OUTPUT集合中的回复中没有拒绝倾向的回复,且top2中有同意倾向的回复,则自动将第三个回复替换为拒绝倾向。以此给出更加多样的回复,让使用者的选择面更大。

结语

SmartReply是谷歌将回复选择技术利用到移动版邮件系统的一个尝试,希望解决手机打字不便的问题。论文叙述了一个系统,并为我们实现一个邮件回复系统指明了方向。

相关推荐
热点推荐
美众院支持没收俄罗斯资产 普京盟友:俄罗斯有理由采取对等措施

美众院支持没收俄罗斯资产 普京盟友:俄罗斯有理由采取对等措施

财联社
2024-04-22 19:38:14
韩国队爆发,1-0掀翻日本,3战全胜夺得小组第一,中国队好好学学

韩国队爆发,1-0掀翻日本,3战全胜夺得小组第一,中国队好好学学

侧身凌空斩
2024-04-22 22:57:46
北京人讨厌的柳絮背后,有一个过敏产业链

北京人讨厌的柳絮背后,有一个过敏产业链

蓝鲸财经
2024-04-22 13:54:28
发现一个长寿的秘密:年轻时劳累,寿命短,年轻时悠闲,寿命长。

发现一个长寿的秘密:年轻时劳累,寿命短,年轻时悠闲,寿命长。

荷兰豆爱健康
2024-04-05 18:05:12
向全球宣布,中国研发颠覆性无人机,空中瞬时分体,瓦解防空系统

向全球宣布,中国研发颠覆性无人机,空中瞬时分体,瓦解防空系统

胖福的小木屋
2024-03-22 23:55:39
大争议!马克西决战被推倒未吹 关键上篮被帽+最后一秒传球甩锅

大争议!马克西决战被推倒未吹 关键上篮被帽+最后一秒传球甩锅

醉卧浮生
2024-04-23 10:34:23
上海出轨张老师曝大量美照,难怪16岁男主挡不住,换你也把持不住

上海出轨张老师曝大量美照,难怪16岁男主挡不住,换你也把持不住

辣条小剧场
2024-02-20 08:00:10
辣眼!广西女书记敛财1344万,给司机460万封口费,强行发生关系

辣眼!广西女书记敛财1344万,给司机460万封口费,强行发生关系

我是娱有理
2023-11-23 12:14:40
“妈,快来救我”,少女在学校快被打死,校方:家长别来,别报警

“妈,快来救我”,少女在学校快被打死,校方:家长别来,别报警

坦然风云
2024-04-22 19:18:51
初代网红郭书瑶参加《浪姐5》,娃娃脸也挂不住肉,状态差认不出

初代网红郭书瑶参加《浪姐5》,娃娃脸也挂不住肉,状态差认不出

雨天华夏
2024-04-22 12:49:39
宁波一干部,拟任副市级领导

宁波一干部,拟任副市级领导

鲁中晨报
2024-04-23 08:33:05
连续45场不败,勒沃库森继续刷新欧洲最长不败纪录

连续45场不败,勒沃库森继续刷新欧洲最长不败纪录

懂球帝
2024-04-22 19:38:13
最不关心父母的3个生肖子女,对父母冷漠,被称为“白眼狼”!

最不关心父母的3个生肖子女,对父母冷漠,被称为“白眼狼”!

历史星空回望
2024-04-22 06:00:03
张本美和真的很真正日本人好像!输了比赛就哭,未来潜力不可小觑

张本美和真的很真正日本人好像!输了比赛就哭,未来潜力不可小觑

小布丁看各种书籍
2024-04-23 14:02:41
8000万人吃掉40%财政收入!上班拿5千退休拿1万的现状,必须改变

8000万人吃掉40%财政收入!上班拿5千退休拿1万的现状,必须改变

人物娱记
2023-11-28 13:00:03
谭咏麟病愈后首次公开现身,瘦到青筋毕现感慨声线不好

谭咏麟病愈后首次公开现身,瘦到青筋毕现感慨声线不好

小萝卜天下事
2023-07-21 21:57:53
03年我要转业,政委把我的申请扔出门外,没想到再见时他已是局长

03年我要转业,政委把我的申请扔出门外,没想到再见时他已是局长

甜美的风
2024-04-23 12:43:23
韩勇、凌成兴、张秀隆,同日被处理!

韩勇、凌成兴、张秀隆,同日被处理!

新京报政事儿
2024-04-22 16:24:48
空军副司令员杨东明被授予少将,父亲是开国上将,岳父是国防部长

空军副司令员杨东明被授予少将,父亲是开国上将,岳父是国防部长

北筏话史
2024-04-06 12:00:52
一群垃圾佬搞出的神级工具

一群垃圾佬搞出的神级工具

狂野音乐厅
2024-04-02 07:15:22
2024-04-23 14:48:49

科技要闻

Meta宣布开放这一系统,自比安卓对抗苹果

头条要闻

59岁省卫健委副主任被双开 "一把手"已主动投案

头条要闻

59岁省卫健委副主任被双开 "一把手"已主动投案

体育要闻

快船独行侠G1:猛踹瘸子那条好腿

娱乐要闻

赵丽颖晒照似初恋,拍照疑与儿子分享

财经要闻

千元“特供”酒 猫腻有几何

汽车要闻

哪吒首款大五座SUV 哪吒L售价12.99万起

态度原创

本地
手机
房产
旅游
公开课

本地新闻

我和我的家乡|潍坊人真是什么都敢往天上放啊

手机要闻

三星Z Fold6配色曝光 提供粉色在内5种颜色 外观偏硬朗

房产要闻

供应量环跌71%!海口这个月又只发了5张证!

旅游要闻

重庆荣获2023年全国游客满意度十佳城市

公开课

睡前进食会让你发胖吗?

无障碍浏览 进入关怀版
×