(原标题:Google Presents MultiModel: A Neural Network Capable of Learning Multiple Tasks in Multiple Domains)
网易科技讯 7月13日消息,据Infoq报道,谷歌创建了一种新算法,它可以接收多种模式的输入,并可以多种方式生成输出。
目前,许多机器学习应用都集中在一个领域。机器翻译只能为一种语言对建立匹配模式(例如英译汉),而图像识别算法只能执行一项任务(例如描述图像属于哪个类别,或者在图像中识别物体等)。然而,人类大脑在执行所有任务时都表现得很好,可迅速将知识从一个领域转移到另一个领域。人类大脑甚至可以通过倾听其他领域(比如我们看到或读到的东西)所学的东西进行转换。
谷歌建立了的新模型MultiModel可以同时执行多个领域的8项任务,包括语音识别、图像分类、添加字幕、句法分析、英德互译或英法互译等。这种神经网络由编码器、解码器以及“输入输出混合器”组成,它们可将先前的输入和输出馈送给解码器。在下面的图片中,MultiModel的每个“花瓣”表示一种模式(声音、文本或图像)。这个网络可以用这些输入和输出方式学习每项任务。
2016年11月份,谷歌发布了Zero-Shot翻译。该算法将所有句子转变成“中间语”,即输入语言和和输出语言相同。但谷歌只对它进行了英韩和英日翻译训练,他们的神经网络能够在从未见过类似句子的情况下,对英语和日语进行互译。
谷歌报告说,在使用MultiModel时,执行少量训练数据的任务表现更好。而机器学习模型通常使用较多的训练数据表现更好。采用MultiModel,你可以从多个领域获得额外数据。更重要的是,使用这种方法不会破坏标准任务中的任何现有记录。(小小)