舍恩伯格:大数据分析改变人类对于世界的理解方式

发布时间:2014-2-10信息来源:新浪财经热度:

新浪财经讯 由科技部和上海市人民政府共同主办的2014浦江创新论坛1025日在上海开幕。牛津大学教授维克托。迈尔·舍恩伯格教授出席会议并发言。


  
 

下为发言实录:


维克托·迈尔·舍恩伯格:女士们、先生们,组委会要求我谈大数据,当我们谈大数据以及创新的背景时候,我们追溯一下历史,仅仅不到100年之前,亨利福特当时开始催生了当时的福特车型,启动了汽车的大众生产的新时代,不但改变了汽车制造业,改变了经济,同时也改变了整个社会,改变了我们对距离的感受感觉,改变我们对时空的感受,100年不到我们之前有亨利福特以及他的福特车型,而现在我们有苹果表、苹果手表即将上市,在这样的背景下谈创新它的定义如何定义?在座有些人也许会说这很显然,福特车型主要是与大众生产有关,批量生产就某一个车型进行最低成本的批量型生产,亨利福特自己本人就说你可以在任何一种颜色的情况下,来买我的车只要它是黑色,我们在快进到现在的时代,苹果手表将会有上千种不同的配置,而且以低成本进行生产,我们还可以升单纯是大众生产,还可以进行个性化大众生产,个性化大众生产成为现代化的标志,现在说到创新,我们看到是从大众车型生产到个性化大众生产的时代,我们对本身的想法进行否定了,他谈了什么有关?他是与我们不是说看时间的功能,而实际上更好的对世界上发生的事情数据技术分析和理解,我们解释一下在人类发展当中通过理解和观察做到,并且通过观察捕捉信息从而加深理解,而最近我们开始谈及小数据,因为收集和分析以及储备以及再使用数据成本非常高昂而耗费时间。所以我们需要能够在一个非常既定的目标情况下完成,并且丢弃。而现在我们看到要理解世界的方式和方法,是基于或者说是驱动于是由于我们对于大数据无法正确理解而驱动的,而这样的背景正在变化。


我们收集分析储蓄再改变数据分析的过程,是改变了我们对世界进行理解的方式,我对此作为小小的解释,在2000年时候,斯龙的数据调查,可以是在数轴里面进行收集的数据,督促了天文史上面所收集还要多,在过去两年里面收到了200TB储备数据,在新的2015年将出来的天文望远镜收集的数据量达到200TB,每五天收集数量达到200TB,所以现在面临数据爆炸的概念,这样的数据爆炸是在1989年左右,1986年开始,到2010年只花了20年时间,而在全球数据的数量增长了100倍,20年时间里数据增长了100倍,如果我们再次回到人类的发展史上再次我们看到数据的爆炸性的增长,是1450-1506年之间,在这个时间里面我们世界的数据是翻倍了,但是现在在过去的20年里面我们的数据确实涨了100倍,这仅仅是故事的一半,另一半是图表颜色显示,深色区域是数码数字,而我们的浅色区域是模拟数据,在2000年时候可以看到这就是我们的白色的垂直线区域里面,在2000年不是太早之前,四分之三世界的数据都还是属于模拟数据,但是现在仅仅是在不到1%,就是15年里面我们已经从模拟世界进展到了数码世界或者数字世界,为什么是这样?因为数量能够转化为质量,含沙射影,我们拍数码照片,每一秒钟一个人骑马的照片,如果拍20张照片,突然看到数量的改变带来新的质量的飞跃,这就是我们看到我们对现实的新的观察和体验,这就是我们数据所带来的改变,当我们的信息的数量增长可以带来我们对世界洞察力新的变革。


说到更多我们有着更多的数据,而这些数据与之相关的问题正是我们观察世界的出发点所在,也就是说让数据说话,让数据来帮助我们看世界,让数据帮助我们更好理解世界,我们再次用拍照片作为例子,如果我要拍照片,请大家笑我要拍照片了,然后我要选择,我到底把焦点聚集在万钢先生身上,很遗憾坐在后面的部长先生图像模糊了,所以这个时候我的朋友戴维不再成为我的照片焦点所在,他的图像变得模糊,因为我照片数据重心不在他的脸上,所以在拍照的时候必须做焦点的选择,哪些对我来说是重要作为焦点,而不重要变为模糊的背景,这个时候我们会知道在数据时代什么对我们更重要?我们再来看看照片,这是一个刷牙的照片,可以看到牙刷是我的焦点,而背景模糊的是我4岁的孩子,我能不能改变?这个照片不是使用普通的相机拍摄的,是使用大数据相机拍摄的,是把所有的焦点重心捕捉起来,在我拍完照片之后下一张照片以我的儿子为中心的照片,所以我可以自己选择任何一个成为焦点的对象,在使用这样的照相机,这就是大数据照相机优点所在和它的力量所在。可以让数据说话了,结果就是你可以寻找那些模式,它把我们的数据相互不关联的数据结合起来,所以通过分析这些数据之间的关系和关联,你可以找出一个事件的因果关系。


当然这个听上去已经很不错了,现在跟大家分享一个故事,这是我们俄罗斯朋友喜欢的一个故事,在上世纪50年代的时候,美国国防部他们收集了很多的树叶来自于苏联内部的文件信息,通过间谍或者其他资源收集到了内部信息,斯诺已经不是新事件了,他们把收集到的信息翻译成英语,他们问科学家能不能帮忙?他们有软件进行翻译,从俄语翻成英语,他们会教授计算机为什么这个俄罗斯语被翻成英语?三个月之内我们完成的翻译任务,我们答应了说现在开始了,15年以及10亿美金花进去了,但是最后我们的结论是我们的翻译是失败的,在机器翻译之后并没有发生持续性变革,IBM在加拿大有不同的概念和想法,他们说我们不需要高速计算机,我们需要做仅仅是告诉计算机这个语言被翻译成另外一个语言的字,我们做统计性可能性分析,我们需要培训性材料,我们把加拿大的一个字放到计算机数据库之中,这样我们计算机并不知道为什么被翻成某一个语言中某个字,遵循的工作机制仅仅是基于统计概率来研究,在这个领域他们犯了一个很大的错误,就是他们说现在取得成功,提升了我们的算法,实际上并没有取得成功,10年之后一个新创业的公司,一家在加州的公司他们说有更好的想法,他是来自于德国朋友到了加州说,我们会利用世界上英特网作为基础,创建统计性、或然性,因此欧盟的网站信息或者是跨国公司和组织的信息在网络上的信息被成为翻译的基础。这样的结果比以前所有的机器翻译的研究都更加出色。所以现在虽然说起来我们的计算机翻译结果,比如谷歌翻译不是那么尽如人意,但是已经比过去好很多了。


不知道这个字翻译成那个字,只知道统计库中间某个字被翻译成的几率有多高,因此是大数据给现实生活带来的改变,我们只要看看电子商务如何改变了我们的市场营销?改变生活的方方面面,从此看到社会带来的变化,人体的健康领域,我们知道人体都是非常脆弱的,比如早产的孩子,早产的婴儿,他们夭折的可能性是很高的,因为经常我们看到这些早产儿感染的时候已经太晚了,有一位博士会说到大数据能够帮忙,他把数字传感器放到了婴儿身上,然后收集那些与他的生命体征非常相关的关键信息,包括他的血压、包括他的心跳数量,大概在一秒钟内传递1200多相关的数据,可以累积为假以时日,他们开始寻找这些数据所带来的模式和规律,通过这些模式和规律来预测这个小孩未来可能遭遇到的感染,并且与之相关的疾病,这可以帮助我们医护人员给早产儿更好的医疗护理。在这样的创新里面有非常多的价值,但是最重要对我们来说可以看到在过去的数据价值,已经全部被用完了,过去我们会把这些数据收集起来来用,知道这个数据是为了什么收集起来的?我们根据用处用它,用完了以后把数据丢掉,但是现在不是这样了,我们要把数据重复的使用,一遍遍使用,像一个冰山,数据重要的价值在冰山下面,海水下我们看不见的地方,所以我们对数据一定要一遍一遍重复使用,因为我们看到冰山上小角落,我们看看美国西雅图创投公司,那个公司做的是帮助人们预防交通堵塞,上班的路上或者下班的路上预防交通堵塞,他们有应用给大家一个地图,称之为热图,哪里是交通堵塞比较厉害的地方显示不同的颜色,每天都有1亿人在用这个应用,这个数据哪里来?每一个智能手机上的用户一个传感器,当你在行走或者开车智能手机把数据传输出去了,看你在哪条路上等等,这些数据可以进行重用,公共部门利用这些数据更好了解公共交通的情况,包括公共交通的流量,因为现在的交通流量已经变得比过去更多,比如在伦敦,伦敦的地铁的系统过去的一些系统太老旧,不能再用了,我们有一条新的方法,这是一套测量工具追踪走路的情况和睡眠等等情况,里面得到的数据可以进行数据的重用,比如在美国我们有一个夏季的地震,所以我们可以测量地震的强度,比如说这个图表可以看到有多少人在晚上突然醒来,因为地面在抖动,在这个地区里面有多少人晚上被惊醒,睡眠的数据可以测量地震的级别,这就是现在对数据使用的程度。


这个公司不仅仅是汽车公司,也是最大的飞机引擎的公司,很长时间内都是为飞机提供引擎的,比如说为空客380提供引擎,他们在里面有很多传感器记录振动,热力等等,所有的数据交联一起,本来收集这些数据用好之后丢失了,不用了,现在他们说我们把这些数据重新使用,用这些数据预测比如说引擎里面哪一个零部件即将产生故障,预测哪里出现问题可以提早进行维修和替换,所以这个公司把很多业务转成了服务的事业,所以他们在服务创收方面占到所有的营收额17%了,这就是这个公司非常好的例子,有很多人看到这张图可能说从大变得更大的过程,比如说谷歌、苹果、阿里巴巴[微博],大公司变得更大,可能从某些角度来说对的,但是可以看到大数据经常被很小的公司使用,包括创投企业只有几个人的创投企业,比如一个电脑科学家,建立的公司多林格公司,是智能手机应用,帮助学习外语,多林格把所有的数据收集起来,他们发现我们经常学习英语用不好的方法学,比如西班牙学习英语方法与中国人学习方法不一样,多林格收集了所有学习外语的人,他们用到了云计算服务,不需要很高成本,不需要建设生产制造商基地,不需要建立工厂,也不需要建立谷歌数据库这么大规模数据库,所以现在世界里物理的规模已经不是那么重要了,重要的是要有能力收集数据,有能力分析数据,从数据当中得出点子。熊彼德讲过这样的例子。


政策必须建立好政策框架建立起信心,美国政府在过去12月里面做得并不是很好,我们怎么样重振信心?是至关重要,我们的公民不相信说政府、公司有责任使用数据,这些用户不愿意提供他们的数据,所以我们必须要建立起信心信任,通过立法规条让用户建立起信任才能把数据提供,不仅如此,政府也会认为可以让社会有更多的洞察力,从这些数据中得到洞察力,这样他们更愿意提供数据,所以讲的是开放的数据,开放源的数据10年前开始了,当时希望提升公共的讨论,但是现在已经有了新的职责,可以成为经济发展好的支柱也可以支撑大数据行业。


最后讲一下一个问题,下一步该是怎么样的?下一个趋势是什么样的?有了大数据之后在未来我们肯定能够学的更多,我们也会变得更健康,寿命会延长,汽车自己会开不需要司机,但是大数据显而易见也有限制,所以在下一步里面我们一定要非常当心,以一种非常审慎的过程很好掌握大数据技术,非常重要的一点我们一定从大数据当中进行不断的学习,另外我们也应该专注于对人们有益的领域,有的时候数据可能不会告诉我们哪些是对于我们人特别重要的地方,但是这就是人和电脑之间的差异,我们必须要了解,因为我们是作为人,我们可以更好理解世界,我们有理解的能力,所以我们也要变得更加谦逊,谦逊是非常好的特质,因为我们知道数据只是对于一个事实的体现,数据经常是不完整的,也经常是不完美的,所以我们必须要做大数据的分析,在未来要做更多的大数据分析,不仅仅是谦逊的态度去做,而且要以人性化态度分析大数据。