网易首页 > 网易科技 > 网易科技 > 正文

Dan Roth:非结构性数据处理为什么这么难?

0
分享至


本文系网易智能工作室(公众号smartman 163)出品。聚焦AI,读懂下一个大时代!

【网易智能讯1月28日消息】今日,由DeepTech深科技、麻省理工科技评论主办的全球新兴技术峰会(EmTech China)在北京举行。会上,宾夕法尼亚计算机与大学教授、自然语言处理顶级专家Dan Roth发表了演讲,讲述了非结构性数据处理的难题。

对于目前机器学习分类不是非常有效的问题,Dan Roth称,我们不仅需要找到方法,更应该了解推理的方法,包括了解原因、假设结果和测试方法。因为推理应该是分类之上的逻辑,让同样的类别在一起进行集成。

Dan Roth表示,现在的模型大多不具有普适性,还有最大的挑战是神经网络的监督。“我们赋予神经网络一个任务,去模拟它,然后收集数据,设置一个模型。但现在我们发现我们的数据不够,没有办法去训练所有的模型,我们也不太清楚,什么是称为全部的任务。那这种方法就无法升级和进行普适性的应用,它更大程度上是只是一种偶然性的训练。”Dan Roth说到。

对于自然语言处理的发展,Dan Roth认为目前这个领域依然具有挑战性,但已经在商业上有一些成绩了。(小羿)

以下为Dan Roth演讲实录:

Dan Roth:当我们连接wifi的时候,或者当你在下载的时候,会出现一个提示框询问你是否接受用户协议。这是一份很长的文本,那么你要接受吗?要认同吗?可能你会回答,对,我要接受,哪怕这个时候,可能你还没有读完这份长长的文本。但是这个文本中会涉及很多问题,比如,它会如何利用我的个人信息?不会侵害我的隐私?我们需要了解这些知识,这个文本能不能让用户清楚了解这些相关的保密内容呢?我们现在还没有一种稳定的方法可以去了解整个文本的内容,这就是我们现在遇到的问题。

这个问题不仅是一个科学上的问题。这些文本关乎我们个人信息的安全性,这是每个人都要面对的问题。

我们接触到的绝大多数数据是非结构性的。从科学领域,再到医学、教学、商业、互联网等等,包括我们的邮件都是非结构性数据。这背后的挑战就是,我们如何去了解这些数据的结构,我们如何建立一个系统,可以去分析、利用它们,了解其背后的意义。这就是自然语言处理领域近期,尤其是近几年的一个重要任务。

今天,我来给家解释一下,为什么非结构性的数据处理这么难?我们要采取什么样的措施?

我们从一个简单的故事开始。这是美国二年级学生的一道阅读测试题,有三个名字:Kris  Robin、Kiris和Ms.  Robin,大家觉得他们是同一个人的名字吗?我想大多数人都觉得不是。为什么不是呢?因为通过阅读理解,大家会觉得其中有一个可能是父亲。虽然这篇文章中没有明确指出这一点,但是大家可以推断出来。这样一道题,有人做对,有人做错,有人可能做的很快,有人则可能会慢一点。那么我们如何帮助计算机快速地做出选择呢?

其实,这个故事中是有很多陷阱的,有的人会被误导。文章中往往有很多的逻辑词,有很多时间节点,比如说三年前五年前,还有一些定性和定量的词语,让我们可以分析和梳理人物之间的关系。哪怕是一个很简单的问题,我们也需要通过逻辑来梳理。这样阅读完一篇简单的文章,我们可以去做一个决定。

对计算机而言,这是一个比较复杂的问题。为什么呢?因为这背后有两层逻辑。表层语言层和底层意义层。语言层具有模糊性,因此可能会产生歧义,所以我们需要去了解它的背景,推测它的言外之意来消除这样的歧义。除此之外,语言层还具有多样性。我们想要表达的每一点,都可以通过不同的方式表达出来。这两个特点就使得语意理解非常困难。

再给大家举一个例子,这里有三篇文本,都提到了芝加哥。我来自芝加哥。我这么说,它可能没有别的意思。但如果我提到芝加哥乐队,或者芝加哥的足球队,或者提到与它相关的专辑。有的文本中甚至不会直接出现芝加哥,但是这些不同的意义点都可以帮我们表达出芝加哥。

传统的编程能力暂时没办法帮助我们解决语言的模糊性问题。所以我们就要利用最新的机器学习去减少文本中的模糊性,去连接语言中的逻辑,去解读背景知识,去识别不同的词汇之间,以最终地消解这种模糊性。

机器学习是解决语言中模糊性和多样性一个必要的工具,在过去几年我们也看到了这个领域的发展。我们有不同分类方法来解决文本分类问题,他们依据不同的规则,使用不同的方法。比如我们会通过打上一个标签对文本进行标记,在标记的过程中对文件进行分类。比如可以通过病例来判断一个患者是否可以复诊,这是一种宏观的分类方法。

人工智能能够帮助我们进行分类,在过去的几年它也取得了长足的发展。这其中不仅有机器学习发展的功劳,还有其他的技术,包括计算能力的发展和储存成本的下降,都促进了机器学习领域的发展,还有新的分类方法的诞生。

大家如果关注这个领域,就会发现现在机器学习分类还不是非常的有效。如果把这些方法比喻成一个魔盒的话,我们要了解这个魔盒中需要什么样的工具和内容。我想强调的就是,我们不仅需要找到方法,更应该了解推理的方法,包括了解原因、假设结果和测试方法。因为推理应该是分类之上的逻辑,让同样的类别在一起进行集成。我们要清楚,一个点是否能推到下一个点,这样才能更好的解决问题、回答问题和进行优化。

自然语言处理现在有很多应用。比如,一个律所需要获得所有人的名字,这些人名都包含在邮件中,有不同的分析邮件的方法,我们该如何确定这些人的名单呢?再比如,一个政界人士要研究气候变化方面的问题,他也找到了很多相关的文本,但是该如何全面的梳理,得到大事件的时间表呢?包括教学系统,是否能够帮助我们初中学生更好的解决几何和数学问题?再比如比传统病历包含更多信息的电子病历我们又该如何利用呢?

我们还没有真正完全解决这些问题,还有许多其他挑战,包括推理,适应性训练,因为现在的模型大多不具有普适性。以及最大的挑战是——监督。

那什么是监督?就是神经网络的监督。我们赋予神经网络一个任务,去模拟它,然后收集数据,设置一个模型。但现在我们发现我们的数据不够,没有办法去训练所有的模型,我们也不太清楚,什么是称为全部的任务。那这种方法就无法升级和进行普适性的应用,它更大程度上是只是一种偶然性的训练。

我们也发现很多的零散信号,我们如何收集这些零散的信号,进行训练模型?传统的文本分类,需要用很多标志性文件去训练一个经典的模型。所以,我们一般要收集一些关键的数据进行标记、进行分类。现在我们考虑的是如何不利用标记的数据,就可以进行快速地分类。但是现在我们不再需要标记数据了,因为我们有对标签的最直接的了解。我们可以直接利用话题、文本进行标记性的重现,以实现对话题的理解。

我还有一个例子,我很喜欢喝咖啡,我想告诉一个机器人这个信息,我就要和它沟通,为它提供一个信息,我要告诉它,我需要什么样的咖啡,让它去了解我的喜好。标准的机器学习的方法,就是为了提供一个有隐喻的文本和很多意义的标记,这样做的成本非常地高昂。换句话说我们要像一个老师一样,通过深入的沟通,为机器人提供信息。这种方法是不可以进行复制的。

现在我们在想为它提供一些非直接性的信号,去训练这个机器人。把这样的信息传递出去,再看一下机器人能做什么事情。如果它按照我的方法和指示做这个咖啡,说明我们的信息传递是非常清晰的,相反说明我们给的是一个不太好的例子。

因此我们现在的挑战就是能不能依赖于这种描述语言,实现信息的传达。我不会告诉你们怎么做,但是我觉得这样一种方式,能够帮助我们进行下一级的技术革命,而且能够实现一些复杂任务的完成。

总结来看,今天的自然语言处理依然是一个具有挑战性的领域。机器学习和推理等都是科学工程以及商业进展的核心。尽管还有许多的问题有待解决,但是现在这个领域的现状已经能够帮助我们带来一定的商业成功了。

谢谢!

关注网易智能公众号(smartman163),获取人工智能行业最新报告。

相关推荐
热点推荐
乒乓球世界杯:男单8强出炉,国乒4人晋级,林诗栋梁靖崑淘汰!

乒乓球世界杯:男单8强出炉,国乒4人晋级,林诗栋梁靖崑淘汰!

乒谈
2024-04-18 22:36:24
小米SU7车主买车5天后被辞退!知名车企回应:他大肆宣传小米SU7三个月,旷工去提车

小米SU7车主买车5天后被辞退!知名车企回应:他大肆宣传小米SU7三个月,旷工去提车

每日经济新闻
2024-04-17 12:54:09
女友乳房被两名男子用矿泉水瓶插,男友气不过杀害了女友

女友乳房被两名男子用矿泉水瓶插,男友气不过杀害了女友

胖胖侃咖
2024-04-17 08:00:07
你碰到过哪些在某方面天赋极高的人?网友:那个小孩惊呆了众人

你碰到过哪些在某方面天赋极高的人?网友:那个小孩惊呆了众人

小鬼头体育
2024-03-31 23:48:52
成都业主自曝20天燃气费17290元!做顿饭300元?燃气公司回应来了

成都业主自曝20天燃气费17290元!做顿饭300元?燃气公司回应来了

洛洛女巫
2024-04-18 11:39:19
秒没!华为Pura 70突然开售,线下门店大排长龙

秒没!华为Pura 70突然开售,线下门店大排长龙

北京商报
2024-04-18 11:04:23
伊朗前国脚卡里米:我们是伊朗,不是伊斯兰共和国!

伊朗前国脚卡里米:我们是伊朗,不是伊斯兰共和国!

翻开历史和现实
2024-04-18 13:31:10
不建议你吃三文鱼的原因,只有一个

不建议你吃三文鱼的原因,只有一个

丁香生活研究所
2024-04-18 12:09:41
俄罗斯使用核武器的红线,或许已经被乌克兰踩到了

俄罗斯使用核武器的红线,或许已经被乌克兰踩到了

寰宇大观察
2024-04-18 14:23:14
危机升级,人民币跌破7.28,6家银行遭降级,中美金融战全面打响

危机升级,人民币跌破7.28,6家银行遭降级,中美金融战全面打响

奇思妙想草叶君
2024-04-18 19:46:35
全面“禁用”苹果手机?库克做梦也没想到,“制裁”会来得如此快

全面“禁用”苹果手机?库克做梦也没想到,“制裁”会来得如此快

文学科技圈
2024-04-17 00:58:57
中国假期全世界倒数?前官员:再过几十年你就不想放假了!

中国假期全世界倒数?前官员:再过几十年你就不想放假了!

直呼内行
2022-05-12 18:57:38
英媒:伊朗袭击期间以色列空军控制室画面被公开,“当时正进行首次拦截”

英媒:伊朗袭击期间以色列空军控制室画面被公开,“当时正进行首次拦截”

环球网资讯
2024-04-17 08:23:33
拒绝大爆冷!樊振东4-3绝境逆转国乒19岁新星 王皓观战看台上苦笑

拒绝大爆冷!樊振东4-3绝境逆转国乒19岁新星 王皓观战看台上苦笑

厝边人侃体育
2024-04-18 20:17:42
采耳店被曝“躺采”服务,女技师身着旗袍短裙,老板朋友圈更辣眼

采耳店被曝“躺采”服务,女技师身着旗袍短裙,老板朋友圈更辣眼

飘飘视角
2024-04-18 18:22:26
一个理发都要预约的国家,居然敢谈制度和文化自信?

一个理发都要预约的国家,居然敢谈制度和文化自信?

小刀99
2024-04-18 15:08:58
陈冰:要不要反击伊朗,以色列还得看美国脸色

陈冰:要不要反击伊朗,以色列还得看美国脸色

直新闻
2024-04-17 23:03:50
81岁大爷花25元嫖娼被抓,86岁老画家迎娶35岁女子,网友:差别好大!

81岁大爷花25元嫖娼被抓,86岁老画家迎娶35岁女子,网友:差别好大!

互联网大聪明
2024-04-18 21:02:03
周冠宇:足篮受欢迎但没中国球员参加欧冠NBA 我希望能站上领奖台

周冠宇:足篮受欢迎但没中国球员参加欧冠NBA 我希望能站上领奖台

直播吧
2024-04-18 11:20:28
烧光1700亿,利润暴跌78%!外媒:麒麟9000S不是中芯国际制造的

烧光1700亿,利润暴跌78%!外媒:麒麟9000S不是中芯国际制造的

星辰故事屋
2024-04-18 18:53:11
2024-04-19 04:00:49

科技要闻

车圈顶流雷军直播:现在每天提心吊胆

头条要闻

肯尼亚军机坠毁 国防军司令等10人丧生

头条要闻

肯尼亚军机坠毁 国防军司令等10人丧生

体育要闻

前国脚:年薪1000万和10万是一样的

娱乐要闻

《酱园弄》官宣!赵丽颖等配角上热搜

财经要闻

围猎三丰智能的神秘基金设骗局转移资产

汽车要闻

元UP中配130kW动力!比亚迪这次不抠门

态度原创

教育
艺术
本地
公开课
军事航空

教育要闻

上交附中期末考试,求值,a²+4b²-2a-4b+3

艺术要闻

最全展览单元剧透!北京最受瞩目艺术现场100青年艺术季终极解读

本地新闻

春色满城关不住|千阳春日限定美景上线了!

公开课

睡前进食会让你发胖吗?

军事要闻

中方支持巴勒斯坦成为联合国正式成员国

无障碍浏览 进入关怀版
×