网易首页 > 网易科技 > 网易科技 > 正文

机器学习新模式:杨强教授阐述迁移学习和联邦学习

0
分享至


【网易智能讯 1217日消息】由鹏城实验室主办的新一代人工智能院士高峰论坛今日在深圳开幕。会上,香港人工智能机器人学会理事长、香港科技大学讲座教授杨强发表了演讲,阐述了迁移学习和联邦学习的方法。

杨强教授表示,虽然目前数据越来越多,但是数据割裂情况很严重,还有些领域只有小数据。要解决这些问题,有两种方法。一种是迁移学习 ,另一种是联邦学习。迁移学习即找到不同的数据和模型之间的关系,将一个领域的模型迁移到另外一个领域,达到举一反三的目的。

而联邦迁移学习,是多个机构来做一个联盟,在保护隐私安全、甚至不交换数据的前提下,共同把模型建起来。

杨强认为,未来迁移学习和联邦学习有可能成为新的AI学习模式。(小羿)

以下为杨强教授演讲实录(经网易智能整理):

杨强:大家好!我今天要讲的题目是跟数据有关的,首先我们看一下我们的理想和现实,我们的理想是说我们处在一个大数据的时代,我们不断地有数据流从不同的数据源流向一个中心的数据库,但是现实是我们看到数据往往都是割裂的,数据形成一个一个的孤岛,甚至在某些大公司内部,不同的部门数据也不能互相沟通,这是我们熟知的一些困境。这个困境就会导致很多人工智能非常优秀的算法很难加以应用。

下面我们可以把这个数据缺乏的事情分成两部分,比如说我们看到两部门(A部门和B部门),这两个部门各自有一些图象数据,有一些是有行为数据(用X表达),有些可能既有X又有YY就是标注数据,在有部门墙这种情况下,就会形成两种现象,一种是在一个地方数据的量特别大,在另外一个地方数据的量特别小,这个现象如果持续下去,数据寡头这种现象就会急剧增加,很多长尾的企业反而得不到数据,他们的数据量就会越来越小。另外一种就是大家都小,也没有办法形成一个生态的效应,大家都小的话,最后大家都变成没有数据。

在这里我要结合我和我团队的研究来讲两个解决方案,第一个方案叫做迁移学习。我们知道人是可以很自如地把一个领域学到的知识应用到另外一个领域,这里有一个例子就是我们学会了骑车,然后我们就会把这个骑车的技能应用在别的方面。深究一下,为什么我们会有这样一种能力呢?其原因就是因为我们能够找到不同的数据和模型之间的关系,人是有这种能力的,因为有这种能力,我们也不是特别怕小数据,因为我们在一个领域已经取得了非常好的模型,遇到一个小数据的地方,我们就把前面那个模型迁移过来就好,人是特别能够做这种举一反三的事情。

迁移学习用在机器学习上却是一个新课题,我们看到机器学习的一些领先者也提出,迁移学习可能是下一个机器学习的热点,Andrew Ng2016年就提出了这样的说法,特别是他最近在推特上表达了Facebook的一个突破,如果是在一个领域里面有足够多的数据,随着数据量的增长,比如说这个数据是从千万级到上亿级、十亿级这个层级的时候,它的迁移能力就大幅的提高,到了一个新的领域,几乎就不用做很多数据的工作、训练的工作,就可以把模型训练得相当不错。

这个现象最近在NLP领域,谷歌的系统又得到了再一次的印证,这就告诉我们,如果迁移学习能够成功,有可能形成一种新的AI的使用模式。我们看到迁移学习的能力也是在逐年增长的。

下面我们仔细看一下迁移学习的好处。首先就是可以在小数据上能够达到举一反三的效果,第二是使得我们建立的模型能够特别可靠,鲁棒性特别好,一个模型能够让它在外界有干扰的情况下也能够平稳地运行,这在人工智能落地的应用上是非常重要的一个特性。所以迁移学习通过迁移的能力,能够是一个模型变得鲁棒。第三个好处就是能够防止隐私的暴露。

现在迁移学习的主要模式,主要是从左边这个源领域迁移到右边的目标领域。在源领域假如说我们有很好的数据已经训练好一个模型,我们把数据、模型和任务都可以迁移到这个新的领域,叫做目标领域,也就是说我们可以得到一个新的模型,在达到这个新的模型训练的同时,我们就可以来完成一个新的任务。

这里我想举一个例子,我们现在处在湾区,大湾区包括有香港、深圳,在深圳我们开汽车,司机是坐在车的左边,我们在香港的司机是坐在车的右边,但是我们看到跨境的司机,他也可以持续开车,因为他掌握了迁移学习的技术,司机的位置都是靠路的中线最近的位置,这就是迁移学习算法需要找出来的不变量,在两个领域当中找到这个不变量,就可以把一个模型适配到不同的领域。

最近深度学习发展突飞猛进,深度学习对于迁移学习也是有了巨大的促进。假设上面这个红的模型从左到右是一个源领域的模型,下面绿色的部分是一个目标领域的模型,我们在这两个领域的迁移,就会发现在不同层做迁移的时候,它的迁移能力是不同的。

有学者做过研究,从浅到深,在图象上就代表了迁移能力的不同,高就代表迁移能力强,低就表示迁移能力弱,我们会看到对图象来说,比较浅层的都是比较公共性,可以共享的这些知识,它可以比较容易地来进行迁移,这是进行了一个定量的分析,这个知识可以帮助我们建立更好的迁移学习模型,在一个小数据上可以举一反三,达到这样的效果。

利用上面的这些理论分析,我们也可以延展做出不同的迁移学习的算法。比如说一个源领域和目标领域相差太远了,我们一步跨不过去,我们往往会找一些中间的数据集,能够帮助这个模型一步一步迁移过去,我们利用深度学习的变种也实现了这个算法,这个算法叫做传递式的迁移学习,就是多步的迁移学习,就像过河的时候,我们在中间垒一些石头,能让我们一步一步跨过去。

传递式的迁移学习最近在斯坦福的一个工作上尤为瞩目,它是用视觉图象识别非洲大陆的贫困区域,帮助它打分,这个打分可以帮助联合国、世界银行进行救援的决策,利用传递式的迁移学习也达到了过去需要人手工到这些危险的地区去收集数据的同样的效果。

在工业上,迁移学习也有大量的应用,这是第四范式公司的一个例子,利用在大量的小额贷款的数据上训练出来的模型,迁移到大额贷款,但是是小数据,找到两个数据集之间的相同点,最后使得这个迁移在营销领域取得成功。

还有一个例子就是信息流的推荐,现在很多人在手机上看短视频,在手机上看新闻,我们从一个新闻领域迁移到另外一个新闻领域,从一个看文字版的新闻领域,可以迁移到看短视频的领域,能不能做到呢?是可以做到的。这种迁移是在迁移什么模型呢?是在迁移强化学习的策略模型。所以我们做了一个实验,利用手机上面取得的数据,也成功地取得了这样的迁移,这个里面是利用博弈论加上强化学习取得的一个效果。这个效果具体我就不说了,效果是非常好的。

另外一个例子,就是在自然语言领域,如果我们在一个领域已经取得了很好的舆情分析模型(舆情分析是什么呢?就是用户对产品打分,比方说在电商,用户有一些留言,然后我们把这些留言翻译成是赞还是踩),如果我们在一个领域已经做了一个非常好的分类器,也可以把它迁移到一个不太类似的领域,比如说电影,从电子产品到电影,听起来好像这两个不是很相似,但是我们却可以在当中利用迁移学习找到很多桥接的词汇,最后形成一个对抗深度学习网络,最后取得很好的效果。

刚刚讲的是我们的第一个方案,它的特点是我们在一个领域有大数据,在第二个领域有小数据。现在我们介绍第二个方案,联邦迁移学习。当我们两个领域都有小数据怎么办?我没有办法从一个领域迁移到第二个领域,假设我们有一堆数据,一堆公司、企业、学校、医院,每一个数据都不大,但是大家都有意向来做一个联盟,这个时候我们能不能在保护安全、隐私的前提下,甚至不交换数据的前提下,让他们共同把这个模型建起来,这个我们叫联邦迁移学习。

假设我们有两方的数据(A方和B方),A方是样本和产品的维度,它们有一部分样本是重叠的,有一小部分是产品的维度重叠,但是大部分都不重叠,在这种情况下我们就可以分为两部分,对于重叠的样本的这一部分,或者重叠的功能的部分,我们引入一个概念叫做Federated Learning(联邦学习),我一会儿会介绍,没有重叠的部分,我们仍然可以用迁移学习来解决。

我们来看一下什么叫联邦学习,这是今年以来在国际上突然热起来的一个题目,很多公司包括欧洲、美国和中国的一些金融公司对这个突然感兴趣,为什么呢?因为它的要求就是各个企业数据不出本地,数据不出库,模型的效果和直接合并是一样的,我们管这个叫做“无损失”(Lossless),在这个过程中我们取得了什么样的效果呢?是可以让学习模型的过程中不用交换用户的数据,也就不侵犯隐私安全。我们知道隐私和安全现在是越来越重要,Facebook最近又被罚了一笔大款,在欧洲也有一个新的个人隐私法律叫GDPR,在座可能很多人都听说过,我们国家也有非常严格的数据安全隐私保护法,而且更多的法律法规也正在出台。现在如果我们能做到这一点,在不交换数据的情况下能够做到一个联合模型,这样就可以合规。

这里有两个做法,第一个做法是看到A方和B方这两个数据集,它们可能有一些特征是重叠的,但是大部分特征是不重叠的,这个时候我们需要建立模型的时候,A方和B方需要共同持有整个模型的一部分,模型A和模型B加起来,才是一个完整的模型。现在我们有各种算法来实现这一点,其中很重要的一个叫做同态加密技术,是在两边传递一些关键参数的时候,能够保证这个参数是被加密的,而且不泄露给对方。

第二种做法是在用户这个维度我们在联邦合作。假设每个手机都是一个计算中心,然后又不想把这个数据直接上传到云端的时候,我们可以在每个手机上对模型加密,然后把加密的模型上传,在云端可以有一种算法,也是利用同态加密的算法,可以对所有到来的加密的模型进行计算。但是在这个过程中,云端并不知道自己在算什么,所以这个保护就是起到了这样一个效果,手机终端的模型最后就得到了很好的更新。谷歌现在就在考虑利用这样一个算法来更新他们的安卓的系统,以后每个人的手机上面的更新都不需要把数据直接上传。

有了这样一个纵向和横向的联邦学习的算法,然后再加入迁移学习的效果,我们就可以设想以后的社会、企业都可以形成一个一个的联盟,包括行业联盟和跨行业的联盟,比方说有不同的数据平台,还有不同的业务平台,大家可以形成一个联盟,来共同建模,共同使用。这个联盟里面很重要的一点就是保护安全,第二个重点就是每一个企业、每一个团队都觉得自己在里面是受益的,这就需要研究博弈论、研究经济学的同事进来设计鼓励机制,让大家都能受益。

谢谢大家。(完)

关注网易智能公众号(smartman163),为你解读AI领域大公司大事件,新观点新应用。

相关推荐
热点推荐
第二春!34岁奥巴梅扬本赛季25球10助攻,带马赛挺进欧联四强

第二春!34岁奥巴梅扬本赛季25球10助攻,带马赛挺进欧联四强

直播吧
2024-04-19 23:49:03
魔兽WLK:亚服爆雷,2W人服务器仅剩30人,工作室千亿金币打水漂

魔兽WLK:亚服爆雷,2W人服务器仅剩30人,工作室千亿金币打水漂

胖哥游戏说
2024-04-20 17:11:00
4月20日夜晚,消息不得了,突然曝出一重大消息,要来大动作吗

4月20日夜晚,消息不得了,突然曝出一重大消息,要来大动作吗

股市皆大事
2024-04-20 15:06:07
13秒04!吴艳妮挑战奥运冠军失败,名次倒数第1,创赛季最好成绩

13秒04!吴艳妮挑战奥运冠军失败,名次倒数第1,创赛季最好成绩

林小湜体育频道
2024-04-20 19:43:18
62岁著名经济学家猝死在讲台上,最后露面照流出,大量隐情曝光

62岁著名经济学家猝死在讲台上,最后露面照流出,大量隐情曝光

求实者
2024-04-19 15:12:42
新股第一研报|出门问问:AIGC第一股,AI领域市占率仅0.3%

新股第一研报|出门问问:AIGC第一股,AI领域市占率仅0.3%

时代商学院
2024-04-20 07:10:09
刚刚,华为官宣,Pura70原来只是开胃菜,最关键新品今天正式宣布

刚刚,华为官宣,Pura70原来只是开胃菜,最关键新品今天正式宣布

娱乐圈小胡椒
2024-04-20 10:18:36
上海世纪公园24小时开放首夜:游客不足百人,为谁留灯又为何熄灯

上海世纪公园24小时开放首夜:游客不足百人,为谁留灯又为何熄灯

澎湃新闻
2024-04-19 20:40:29
山东聊城化工厂爆炸着火致10死1伤,事故调查报告发布:5人被追究刑责

山东聊城化工厂爆炸着火致10死1伤,事故调查报告发布:5人被追究刑责

界面新闻
2024-04-19 22:03:17
初二男孩被5名同学围殴,父亲抡起铁棍将其中一名活活打死,判决结果出来后,网友不淡定了…

初二男孩被5名同学围殴,父亲抡起铁棍将其中一名活活打死,判决结果出来后,网友不淡定了…

我是娱有理
2024-04-15 07:20:08
王曼昱怒吼震耳欲聋,一场4-2让人落泪!马琳欣慰大笑,观众哭了

王曼昱怒吼震耳欲聋,一场4-2让人落泪!马琳欣慰大笑,观众哭了

嘴炮体坛
2024-04-20 19:34:29
脖子、腋窝长这2个东西,提示你可能得了糖尿病,赶紧对照看一下吧!

脖子、腋窝长这2个东西,提示你可能得了糖尿病,赶紧对照看一下吧!

荷兰豆爱健康
2024-04-19 23:08:16
集中力量办坏事成果之一:苏联图-114大型客机

集中力量办坏事成果之一:苏联图-114大型客机

民航观点汇
2024-04-18 21:11:55
53岁大妈因丈夫不和她过性生活,不给她钱花,睡梦中将丈夫杀害

53岁大妈因丈夫不和她过性生活,不给她钱花,睡梦中将丈夫杀害

胖胖侃咖
2024-04-20 08:00:15
中方发起反倾销调查不到24小时,美宣布制裁三家中企,并冻结财产

中方发起反倾销调查不到24小时,美宣布制裁三家中企,并冻结财产

牛锅巴小钒
2024-04-20 13:40:33
干得漂亮!大陆对台两大暴击,绿营哀嚎遍野,台学者:这才是开始

干得漂亮!大陆对台两大暴击,绿营哀嚎遍野,台学者:这才是开始

叮当当科技
2024-04-20 11:32:01
美女玉足可爱少女写真摄影

美女玉足可爱少女写真摄影

农人老寓
2024-04-20 13:23:23
上海知名地标附近什么情况?网友吃惊:第一次看到!官方最新回应,别再这么做了→

上海知名地标附近什么情况?网友吃惊:第一次看到!官方最新回应,别再这么做了→

上观新闻
2024-04-19 22:29:34
他是副国级“军老虎”,家里钱多到用麻袋装,东窗事发后畏罪自杀

他是副国级“军老虎”,家里钱多到用麻袋装,东窗事发后畏罪自杀

天闻地知
2024-04-19 11:03:34
马斯克:贪婪的最高表现是独载,权利才是剥削的最大根源!

马斯克:贪婪的最高表现是独载,权利才是剥削的最大根源!

世态言凉
2024-04-19 14:52:52
2024-04-20 22:06:44

科技要闻

华为今年最关键的事曝光!Pura 70有新消息

头条要闻

媒体:面对反报复伊朗没接招 以色列下步将更孤注一掷

头条要闻

媒体:面对反报复伊朗没接招 以色列下步将更孤注一掷

体育要闻

克莱,愿赌服输

娱乐要闻

北影节开幕之夜,内娱女星千娇百媚

财经要闻

新华资管香港的秘密:猛投地产或致巨亏

汽车要闻

78.9万的极氪009光辉 让加价MPV无话可说

态度原创

健康
教育
时尚
艺术
军事航空

这2种水果可降低高血压死亡风险

教育要闻

教育纵深 | 校园霸凌背后的“痛”与“思”

“人间真实”的厦门爷爷街拍:无美颜、无滤镜,穿搭简约才最高级

艺术要闻

“妮可·巴菲特:疗伤一代”亚洲大展启幕 千禧世代的疗伤之旅

军事要闻

伊朗总统发声 未提及伊斯法罕爆炸声

无障碍浏览 进入关怀版
×