怀进鹏：有效挖掘大数据将为产业发展带来机会

分享至

网易科技讯 3月31日消息，北京航空航天大学校长怀进鹏今天出席“2013年中国（深圳）IT领袖峰会”时表示，对大数据的有效挖掘，将为产业发展以及经济社会的进步带来很多机会。

怀进鹏说，大数据是资源，是产业，更是科学。通过对大数据的有效挖掘和思考，将给经济社会和产业带来很多机会。这就是大数据的价值所在。

另一方面，怀进鹏认为大数据还有重要的科学价值，是科学研究的一种新途径。

怀进鹏认为，如何快速从大数据中挖掘出有效的信息，是非常重要的一环；只有在处理了缄默、存储、查询、共享、分析和可视化、多样化的数据之后，真正的有效数据才能展现出来。

更多高端对话，请关注网易科技2013年IT领袖峰会报道。

以下是演讲实录：

怀进鹏：谢谢吴鹰主席，理解吴鹰主席，体会各位嘉宾的心态，还是愿意听高端对话，我尽量不耽误太多的时间。非常感谢许市长的邀请，我也是受命于这次论坛，针对IT创新来谈一点自己的理解。今天上午几位业界大佬们对互联网的发展，对于产业的形态和鼓励新的创新给予了很多褒奖和未来的展望，前面又听了李司长和陆主任对产业态势的分析。今天作为技术方面可能我的身份比较适合，我主要从大数据出现的问题角度看看我们应该如何考虑这个事情。

实际上在2010年的论坛主题我汇报的内容是关于网络化软件，引出的一个重要方向是期望数据的处理能够引起我们更多的重视，特别是他作为未来发展的一个重要内容。所以我的汇报主要是三个方面：为什么会有大数据？很简单，大数据的主要较量从我们在技术和学术的角度来看，最后是一点建议。

在过去IT以及现在一直以多快好省作为发展理念，微电子和通讯技术的繁荣和发展带来了很多的机会。虽然有摩尔定律、存储墙等一系列当前无法跨越的障碍，但是在过去20年当中正是由于IT的快速发展给我们带来很多机会。第一个表现在计算和存储容量的加快，CPU的性能提高了3500倍，内存与硬盘的价格分别下降了45000倍和300万倍。通讯的带宽带来了很多变化，特吉尔德的定律，主干带宽6个月增加1倍，每比特的价格趋于零，发达国家的传输能力10年的增加千倍。正因为存储能力的加快产生了变化，最大的变化当网络带宽成为廉价资源的时候，通信带宽超过摩尔速度的时候，充足单机计算可以依托网络计算，离线进入在线时代让网络协同成为可能。第二个变化，终端不需要复杂系统，不需要配置和维护复杂的资源和软件，也不需要预先为之进行投资，不需要知道服务方、客户方是谁，这是因为IT本身的技术变革和大规模的应用导致了所谓的互联网和互联网未来的发展。

由于这样IT技术的变化，使得当前技术和服务成为经济社会非常、非常重要的基础设施。正是因为这样一点，人们设想计算模式有了云计算和现实的计算网络和我们对智慧地球的理解。如果回过头来看80年代在信息技术以PC为变革的时代来看，软件作为一个极大的创新，通过License把软件看不见、摸不着成为产品，这个重大变化是互联网带来的。数据的重大变化给我们看到对云计算、移动互联网、现代服务业一连串的反应，使得我们应接不暇，似乎一切都在情理当中，但背后的问题也非常明显。人造数据、自然数据、交互产生的各类数据一方面信息从稀缺走向丰富，也给我们带来很多麻烦，因为我们无从下手应对这些事情。另一方面，经济价值、真理都在数据中，数据又带来很大的发展空间，数据也成为资本、人之后的第三个重要资源。所以大数据，或者数据量很大给我们带来很多问题，业带来很多机会。什么叫大数据？目前没有统一的说法，传统民间流传是维基百科、IDC，维基百科把大数据定为整体来定义，说现有的数据管理技术难以应对。IDC说大数据是一种通过高速的数据获取发现分析技术，要通过最经济的方法提取数据中的价值。但数据应该怎么处理？如何有效的价值？在思考当中。全球最热门的十大词当中，排在第二位就是大数据，给我们的预测就是未来的每年增长数据量20倍。什么是大数据？还有一种流行的观点是四维特征，数据量大、传播数据快、数据多样性，第四个有人说数据价值高有人说数据密度，但单位数据价值低。不管怎么样，通过数据反映出的政府监督、舆情监督都在这里涵盖。这是三年前的片子，三年前微软的拼写检查，还有亚马逊利用Kinde分析用户习惯创造的价值。大家也许知道2009年谷歌研究人员通过用户搜索和网页数据提前2-3周研究出了H1N1流感的传播，消息引起了疾病流控专家和疾病学家的注意，引起了计算机人员的广泛关注，完全通过用户输出的习惯，我有什么症状，需要买什么药，借助网络通信搜索和发布信息，建立了4个多亿的模型，选择几十亿的数据计算，最后不仅要预测出甲流爆发的可能性，同时预测哪个地区、哪个人类的内容。大家知道乔布斯得癌症的过程中尝试把自己人体的基因和现实社会医生进行对接，以便病变转变之前药效失去之前转换另外一种药。虽然治疗方案没有挽救他的生命，至少延缓了他的时间。这里有很多例子，包括一个西方人为了参加婚礼三个月之前订票，他上飞机之后发现周围的人机票比他便宜，他很后悔，他做了一个公司分析航线的情况，以便给用户推荐什么时候买票最好。这几个例子是大数据分析的一种结果，并没有追求最后为什么导致票价临时买便宜，也没有甲流流行的病例基本原因，有一个启示，通过大数据分析给我们很多有价值的信息，未必知其所以然，但预测的结果往往会更有效。

当先我们国家的用户数量、微博数量非常大，有人说有了互联网公司能使得我们掌握用户的浏览习惯、购物习惯以及思维习惯或对一类问题的认识。这一些背后都可以通过数据有效挖掘和思考，给经济社会和产业带来很多机会。大数据有没有价值？从一个方面确实有价值。去年加特做过大数据分析，他认为4年之后全球大数据相关产业的规模会非常大，而且会引起社会新的认识和新的变化。同样做了分析，做大数据投资有哪些行业？体现在教育、交通、医疗和能源，将要投资包括零售业、通讯、服务和媒体行业，这两部分加起来已经超过了三分之一，因此他对未来大数据的发展在产业和经济当中乐观价值给予了充分肯定。另一方面，大数据还有重要的科学价值，大数据是科学研究的一种新途径，我们以前都熟知的实验科学、理论科学和计算科学，也许大数据基于数据集中的科学发现将会成为未来发展的重要科学手段。我们可能知道开普勒的行星运动规律并不是理论推导，像牛顿一样，他基于实验数据天才般的预测了行星的位置和运动轨迹。开普勒行星的天体物理学也是基于数据完成的，对整个科学发现的工作。

最近从2008年至2010年，大数据作为自然现象在《自然》和国际期刊开始关注，大数据背后的内涵有哪些？由于数据多样性使得复杂度非常高，不光有文本还有现在的视频，不仅有在线还有流数据，有离线数据和批处理数据。所以如何处理缄默、存储、查询、共享、分析和可视化多样化数据，最后数据才能展现出来。最后，如何快速从大数据中挖掘出有效的信息，区别有价值和如何在大海里捞针。需要反应在什么问题上？我举几个例子，到2007年的时候Facebook用传统数据库存15TB的数据仓库，到2010年每天就有70TB的压缩数据放在数据仓库里。以往并行商业数据库当中超过100个节点非常少，而且雅虎Hadoop的集群系统有大量的数据在处理。不适应的主要原因因为成本太高，从这样的角度来看经济性也反应出来。另外一个是传统数据处理的模型在节点增强基于某一个单机系统的CPU处理器，而没有办法考虑到低成本下新的容错系统的扩展能力。这里的基本问题，由于数据规模的增大，输入大数据X如何找到计算的方法，用F找到最有效的解？这已经是不可能了。如何找到近似解？把极大规模的数据变成小数据，把相应的计算方法复杂性降低到不是太复杂的内容，是不是有合理性？这对挖掘大数据的价值和更有效的服务社会成为重要的问题。

这里给出一张图，这是2001年学术会议的文章，我们看到纵轴上最低的算法不到76%，能力、精确度，高一点的到85%，虽然数据规模的不断增加，我们发现差一点的算法，小样本的算法变成几乎和好算法一样？是不是有这样的情况，在大数据的处理面前算法并不是最重要的，如何处理是重要的。同样在2007年谷歌公司对机器翻译当中单词训练的语音模型做了分析，以当时最好的KN算法和他们提的非常简单的算法SB进行比较，规模很小的时候差别看出来简单算法的识别率和训练率都有问题，但随着数据级的集聚增长，达到10个6次方的时候，看简单的算法反而成为最好的算法。从这里看到一个问题，我们原来处理问题的思路和方法似乎在这里发生大变革，过去追求算法精度，算法好和坏的标准，可能随着大数据的变化有了很大的变化，这像我们原来处理的很多问题是一样的。但是在这里又要重新评估为什么简单算法有效？就是因为我们追求的都是多项式时间算法，如果只是时间无论能力怎么样我们都知道太过于复杂，当基数N这个大数据太大的时候，一样的复杂性非常大，所以要找好算法。从大数据下我们处理的复杂性和算法有新的变革，否则没有办法这么大规模的数据。现实当中又提供了这样的需求，就是确定性计算到非精确性算法，特别是在线推荐的产品，只要给出前十名相关的结果就可以了，有一点不准确也没关系。在一个极端的情况来说，我们想买一双鞋子未必跑深圳市所有鞋店，只是比较之后找到最相近、可接受的就可以了。这样给我们提供一个新的思路，如果没有新的算法和新的复杂度的认识，我们面对大数据是无能为力的。特别是由于18个月数据翻一番，而现在数据的类型又极具增多的时候，过去精确化处理的能力、精确化处理的思想不能说完全不适应，但在大数据面前是无能为力的，而很多的结果都接受非精确。

另外一个，我们现在用得最多的MapReduce，通过两种方式大幅度提高并行计算的方式，另一方面MapReduce也有致命缺点，只有把全部数据处理完才能得到结果，但事实当中在线处理的数据是边处理边提供近似结果，并不断进行修正，对于未来大数据处理的平台在一个极端化的发展当中一定会有新的处理垂直要求和横向技术的要求。我想从数据简单的4V特征来看，如果对发现不是必然的因果表现的发展目标，而是找到看似零乱数据之间的关系，我们发现事实、揭示规律和预测未来就是新的挑战。这对过去信息技术遇到的方法具有颠覆性内容，过去的信息分析是采样方法，工业经济给我们带来最多是抽样调查，抽样调查的基本假设是均匀分布，我们炒菜不一定根据时间，是尝一尝知道多长时间，大数据完全不同，因为数据不会有均匀性特征，所以大数据的分析不仅需要新的方法，同时采样的方法是没有办法用，因为统计特征分布不均匀，传统采样方法有巨大的局限性，这说明过去我们对算法的研究在大数据面前需要有新的方式来做。第二，与采样直接相关的分类，机器学习、人工智能都通过聚类特征给出分类方法，但通过分而治之大规模提高了能力，实际上数据的种类极多，如果从维度来看几千种、几万种都有可能，划分维度对数据没有帮助的时候怎么建立稳定的分类？特别在动态下增量的数据如何给出一个渐进的结果？这给我们现在处理的能力提出一个挑战。第三，传统的计算机讲究系统方法，系统还原法，假设一个问题分解成子问题，把子问题解决了原问题就解决了，系统还原的方法可能在大数据不断动态、增量变化下要求助于归纳和融合的方法，这种方法特别适合多元异构大数据的处理，通过不断地归纳和新的融合分类自顶向下寻找关联关系，这种方法是谷歌对几十万人搜索的数据分析并没有一个目标指向的特征，但是相反通过这样的相关性分析的时候给出了可能出现甲流、地区分布和一类人群所带来的情况。

我觉得从前面所说的数据本身4V特征，在计算的本质特别要有新的突破技术来算是3I特征，我总结为近似计算、Inexact，增量计算，Incremental，归纳融合是Inductive，这种计算能力没有有效的支持理论、算法和相应的系统。同时这种问题的有效解决也许对未来信息科学技术有了新的挑战，因为我们传统图灵机操作系统数据库构造在科学计算和商业计算的方式，未来这样的大数据将有新的变革，而这样的变革应该是颠覆性的。未来的问题对数据表示、度量有变化，特别在新型算法设计上，追求算法精度和好坏算法上会有本质的变化，这个变化随时间解决我们的问题分析的关联性，不再追求我们对特定问题的采样。