Manning、Ostendorf、Povey、何晓冬、周明共话多模态NLP的机遇和挑战|智源|算法

分享至

（原标题：Manning、Ostendorf、Povey、何晓冬、周明共话多模态NLP的机遇和挑战）

圆桌论坛 AI新疆域：多模态自然语言处理前沿趋势

主持人：何晓冬，京东集团技术副总裁智源学者

论坛嘉宾：

Christopher Manning：斯坦福人工智能实验室（SAIL）主任

Mari Ostendorf：华盛顿大学电子与计算机工程系教授

周明：微软亚洲研究院副院长

Daniel Povey：小米集团语音首席科学家

语音、文本、图像等单一模态领域，在以深度学习为主的机器学习算法的推动下，已经取得了巨大的成功。然而在复杂情况下，完整的信息会同时涉及多种模态；利用单一模态信息来完成任务，往往力不从心。因此，近年来多模态机器学习研究逐渐发展起来，并取得了许多重大进展，成为了人工智能的一个重要分支。但多模态研究仍处于起步阶段，其中既面临着巨大的挑战，也存在着巨大的机遇。

那么，在自然语言处理领域，多模态研究又将怎样发展呢？围绕这一问题，6月22日，在第二届智源大会上举行的“语音与自然语言处理专题论坛”中，由京东集团技术副总裁、智源学者何晓冬主持召开了“AI新疆域：多模态自然语言处理”的圆桌论坛”，斯坦福人工智能实验室（SAIL）主任Christopher Manning、华盛顿大学电子与计算机工程教授 Mari Ostendorf、微软亚洲研究院副院长周明、小米集团语音首席科学家 Daniel Povey 等在线上汇聚一堂，就多模态自然语言处理发展中的关键问题进行了深度对话。

构建多模态知识库很重要

何晓冬：随着研究者们把目光聚焦在纯文本之外的其它模态的信息，自然语言处理领域迎来的新的机遇和挑战，人们很希望能从多模态数据中获益。另一方面，在过去的几年当中，人们越来越关注对数据的研究，并开始在大规模数据集上预训练。规模庞大的数据虽至关重要，但在多模态多轮对话等复杂的应用场景下，光靠大量的文本数据是不够的，还需要尽可能多的所谓的“知识”。那么“多模态知识驱动的自然语言处理”这一关键问题，接下来的几年里会有怎样的技术突破和发展呢？最近的突破是大规模预训练模型BERT，以及其它大量数据注入的模型和处理大规模数据的新算法。那么多模态知识驱动的自然语言处理是否会带来类似的突破呢？

Christopher Manning：在60、70、80年代研究者眼里，一个很自然的想法就是如何用具有知识的算法来得到更好的智能推断的效果。但在当时建立一个完备的基于知识库的系统是很困难的。尽管如此，还是有人不断的在建立完备的知识库上不断努力。现在看来，很多人相信这样的想法似乎是错误的，因为目前我们可以在一个领域内通过大量的训练数据得到不错的知识表示效果。然而，最近许多多模态相关的研究证明，超越文本的多模态知识库是非常重要且困难的。我们想要的知识并不是像从百科全书中抽取词条那么简单，例如要判断一个人是否喜欢牛仔裤，需要了解关于这个人本身的许多背景知识，这些知识可以从对话中提取，也可以从其他模态的数据中获取。如果能很好的获取感兴趣内容的多模态的完整知识，那么将对多轮对话领域发展起到重要作用。

何晓冬：谢谢Christopher教授精彩的分析，这让我想起Mari在演讲中讲到：自然语言处理中常用的“背景信息”应该是随着时间和状态发生变化的，而非一个静态的知识表示，Mari关于语言背景信息的定义和你说的用户相关信息很相似。Mari如何看待这一观点呢？

Mari Ostendorf：我同意Christopher教授的观点，用户相关的背景信息用于建模是很重要的，人们日常在谈论某一件事情的时候往往综合了许多不同的信息。在需要快速反应的对话系统中，往往需要从一个对话场景快速切换到另一个场景，好的知识表示有助于快速得到信息。想要把任何东西都用一大串文本来表示是不现实的，用科学的知识表示显得尤为重要。好的知识表示应当具有“进化”能力，能够随着时间变化。当然了，知识表示存在一定的信息冗余，人们可以有选择地运用这些知识表示。

多模态数据如何驱动NLP的发展

何晓冬：Mari教授提到知识并不一定是必须有用的，但却是我们必须具备的，可以有选择性的使用，这个观点非常有趣。与多知识相关的研究也包括了多任务、多语言和多模态学习，这些在不同任务上分布的数据来源非常广泛，但往往结构性不强。这类多模态数据将如何驱动NLP领域的发展呢？

周明：知识表示是非常重要的，但同样重要的一点是哪类知识是我们真正需要的。知识可以分为共性的、任务相关的、开放领域等多种类型。我们的语言学知识更依赖于具体的任务。尽管预训练模型可以学习到许多共性的知识，但真正在下游任务上使用的话，还需要进一步用任务相关的数据来训练模型。举个问答系统的例子来说，仅仅靠以往发布的训练数据就可以训练一个不错的模型吗？我想不是的，好的问答系统应当对对话场景有一个比较好的适应，用户满意的不是共性答案，而是那些最适合具体问题场景的答案。总而言之，从包括视觉、语言等多模态数据中尽可能广泛的获取知识是非常重要的，但更为重要的是如何在特定场景下有选择性的使用这些知识。多模态预训练就是一个很好的获取跨模态的知识的方式，未来还有很多多模态预训练相关的工作可以做。

何晓冬：周明老师的观点很有启发性，为了抽取出真正需要的知识，把预训练得到的知识和任务相关的知识进行结合更能够适应现实任务的需要。人类的语言内容要通过语音发出，Daniel是语音方面的专家，您怎么看待多模态知识这个问题呢？

Daniel Povey：在我看来语音信号本身和知识关系不大，因为语音信号的发出是物理过程，知识是无法通过语音信号和语音模型区分的。所以从单纯的语音到知识过程，似乎研究意义不大，但通过语言这一桥梁就可以连接语音和知识了，所以语音这一模态的信息更依赖于通过语言来体现。

值得期待的技术突破

何晓冬：人类说出话语的过程实际上是语言表达的过程，也是知识传递的过程。由于知识结构的复杂性，不同的研究方向会有不同的解读。不过从当下的研究进展来看，预训练的确是目前最好的从文本语言中获取知识的手段。超越文本的知识需要新的解决方案，刚才Mari提到背景知识用于建模的方法，及知识表示应具有进化能力的观点非常精彩。周明博士则从如何获取有用知识的角度进行了分析。事实上，NLP领域最近也逐渐从纯文本的研究迈向了多模态研究，例如融合文本和视觉信息。同样随之而来也有许多有趣的应用，例如图片问答、多模态对话系统等等。自然语言处理领域的发展非常十分迅速，不仅带动了许多任务相关领域的进步，也推动了语言模型本身如BERT的发展。多模态作为自然语言处理的新的突破口，Manning博士，在您看来最值得期待的进展和技术突破是什么？

Christopher Manning：多模态确实是一个值得探索的方向，也能看出来有许多有趣的工作值得去做，比如图片标题生成、视觉问答等。我比较期待的发展方向是从多模态角度出发，综合多种信息来回答一系列问题的智能体的出现，并能实现多种信息之间的交互，这些信息中相当一部分来自非语言学知识。

何晓冬：事实上，人们已经开始研究Manning教授所说的多模态信息交互了。智源发布的多模态对话数据集和挑战赛正是为了推动多模态信息交互而开展的。刚才Mari教授也提到，不同的信号处理能够得到不同的模态数据，不仅仅可以从图像、文本角度出发，也可以从音频本身的频率信息出发获取有用的音频模态信息，Mari教授可以详细说一些这个思路吗？

Mari Ostendorf：我认为多模态信息除了图像和文本，音频中也存在大量信息，比如音频的韵律对分析一个人说话的情感就非常重要。另外，多人对话的研究将是一个新的研究方向。在多人讨论的场景下，准确地识别当前在和哪个人对话是一项必要工作。此外，如何利用更多模态的信息，来更好的实现人机交互也是需要不断努力的方向。另一个可研究方向是刚才Manning教授提到的类人智能体，与智能体交互的时候，智能体应该能和人一样，对周围的环境有一个比较强的视觉辨识能力，也应该对对话内容有一个全面的认识，几种模态之间信息的对齐和筛选是至关重要的。

何晓冬：在一个非常复杂的场景当中，如果想要实现Mari教授所说的，复杂环境下的交互的智能体，那必然就需要许多传感器来获取多种信息，并这些信息进行进一步的区分和汇总。谈到多种信息，我想起周明老师在演讲中提到了多语言学习的相关研究，那假如我们想要一个智能体能够懂得一百种语言，自然就需要跨语言学习，关于多模态信息的跨语言学习研究，我们可以有什么期待呢？

周明：刚才Mari教授和Manning教授所说的观点我是很赞同的，我从实际产业视角下来看也能得出类似的结论。不过从产业上的大数据量、深层次模型和大规模应用的要求之下，如何灵活有效的训练多语言和多模态模型是一个至关重要的问题。数据是模型的第一个关键点，首先要构建一个具有统一范式的多模态数据库，并不断在有趣的任务上进行尝试。如何获得足够大量、准确、多方面的多模态数据本身就是一个不小的挑战。其次，要找到新方法来高效训练具有强适应能力的深度模型。产业界也很关注用户体验，好的客户服务需要了解客户多方面的信息，好的多模态语言处理也应当利用与语言信息有关的其它信息。当构建了大规模多模态数据集之后，如何对信息进行有效整合，是对研究人员提出的新的挑战。

何晓冬：从周明博士的分析看来，尽管大家面对的是同样的科学问题，产业界和学术界确实也还有着不一样的要求。那么我想问一下Daniel作为产业界的语音处理专家，在处理语音的时候，会不会考虑情感等信息呢？

Daniel Povey：我对语音识别领域有着挺长时间的研究，开发和维护了语音识别开源工具 Kaldi，目前我们已经能够成功的进行语音到文本的转换。但音频信息的利用还有很大的前景。如果能有效的对音频中的音调、音色、韵律等信息进行分析提取，获取到的也将会是很有用的多模态信息。当前对大规模多模态数据的标注面临一些挑战。例如如何对大规模的音频和视频数据进行标注，粒度应当如何，什么样的标签信息是真正有意义的，这些问题都值得去深入探索。

何晓冬：非常感谢几位专家学者从自己的研究兴趣出发，对多模态自然语言处理的研究做了鞭辟入里的分析。多模态方向的研究从数据构建、建模方法、评估标准、训练算法等多个角度来讲都是一个较新的领域，也是很有发展前景的方向，未来多模态自然语言处理的研究方向将大有可为。

关于2020北京智源大会

北京智源大会是北京智源人工智能研究院主办的年度国际性人工智能高端学术交流活动，以国际性、权威性、专业性和前瞻性的“内行AI大会”为宗旨。2020年6月21日-24日，为期四天的2020北京智源大会在线上圆满举办。来自20多个国家和地区的150多位演讲嘉宾，和来自50多个国家、超过50万名国内外专业观众共襄盛会。