欢迎访问ic37.com |
会员登录 免费注册
发布采购

大数据开启人工智能新篇章

日期:2014-3-13 (来源:互联网)

大数据技术是继移动互联技术和云计算技术之后一项颠覆性的信息技术,它使得我们拥有了对一些数量巨大、种类繁多、价值密度极低、本身快速变化的数据有效和低成本存取、检索、分类、统计的能力。但这并不意味着我们今天能够有效和低成本地了解这些数据中蕴藏的巨大价值,尤其是这些数据中隐性的社会科学规律和经验所代表的巨大价值。所幸,人工智能领域的一些理论和比较实用的方法,已经开始用于大数据分析方面,并显现出初步令人振奋的结果。本文就大数据和人工智能未来发展的相互关系和潜力进行一些初步探讨。我们认为,人工智能领域的一些理论和比较实用的方法,能够显著和有效地提升我们所拥有的大数据的使用价值,与此同时,大数据技术的发展也将在为人工智能提供用武之地的同时,唤醒人工智能巨大的潜力,从而使这两个领域的技术和应用出现加速发展的趋势。

在1956年的Dartmouth学会上,来自不同领域(数学、心理学、工程学、经济学和政治学)的一批科学家开始探讨制造人工大脑的可能,并正式提出人工智能(AI,Artificial Intelligence)的概念。现在常用的人工智能方法包括人工神经网络(Artificial Neural Network)、机器学习(Machine Learning)、知识表现(Knowledge Representation)、智能搜索(Intelligent Search)、模糊逻辑(Fuzzy Logics)等。然而要想使这些方法具有优异的表现并不是件容易的事,其前提是拥有足够多的数据样本和强大的计算能力。这在人工智能出现的早期,是很难实现的。因此,60多年来人工智能的发展可谓命运多舛,坎坷百折。

以人工神经网络为例。在20世纪70年代末期,人工神经网络的反向传播算法(Back Propagation,BP)掀起了基于统计模型的机器学习热潮。通过BP算法,人工神经网络能够从大量训练样本中学习其统计规律,从而对事物进行分类和预测。相比于传统的依靠人工和人的经验制定规则的系统,这种基于统计的机器学习方法具有明显的优越性,如具有自学习功能和联想储存功能等。然而,由于基于BP算法的人工神经网络的理论分析难度大,其训练效果依赖于使用者的经验与技巧,且容易过拟合,以及训练速度过慢等缺点,人工神经网络在90年代后期又陷入了沉寂。

再比如机器学习。机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论等多门学科。机器学习的目的是从数据中自动分析并获得规律,并利用规律对未知数据进行预测。目前机器学习已经广泛应用于我们的生活中,例如互联网搜索、垃圾邮件过滤、机器翻译、在线广告、手写识别等。然而机器学习本身也有硬伤,即容易过拟合和容易引起维数灾难(Curse of Dimensionality)。而且经典的机器学习算法并不能真正表达“学习”的过程,无法产生具有确切现实意义的事物的概念,比如人脸识别,其实机器并没有得到“人脸”真正的实际意义,只是把人脸与其他事物区分开来。

最近,深度学习(Deep Learning)兴起,成为人工智能的一个重要分支。一些学者认为深度学习是建立真正的人工智能的正确方向。与其它机器学习的方法比较,深度学习方法需要的人工协助较少,能够在预设条件较少的情况下工作,适合所知情况较少的问题。前几年,深度学习的研究曾经一度停滞不前,因为虽然深度学习能够有很好的期望结果,但需要的时间和计算资源过于庞大,对解决现实问题力不从心。最近图像处理单元GPU技术的发展,使得深度学习所需要的计算资源和时间不再成为瓶颈,深度机器学习再次成为行业的热门。虽然深度学习具有上述优点,它仍旧无法摆脱机器学习方法的固有局限。例如,不能解决带有模糊性的问题,只能学习和认识已定义好的目标,仍旧无法表达真正的“学习”过程等。

纵观全局,虽然随着整个IT行业计算能力、存储能力、通讯能力的发展,以及人工智能研究的长期积累,人工智能在一些领域里获得了一定的突破,其研究成果也已经在数据挖掘、工业机器人、物流、语音识别、银行业软件、医疗软件等方面被广泛的应用。但是,目前的人工智能方法都只能处理已预先定义好的问题,实现既定的目标。一旦遇到未定义的情况,人工智能便束手无策。因此,现阶段的人工智能技术并不能使机器具有真正的自主学习和研究的能力,更无法奢谈拥有创造能力。而使机器获得学习能力、研究能力和创造能力,恰恰是人工智能技术发展的目标。

现在,我们看看大数据的发展情况。21世纪初,大型网站如Google、Amazon、Facebook、Yahoo、Twitter等积累了大量用户的商品交易、搜索、社交、个人情感等数据。一方面,这些信息中蕴藏着巨大价值。另一方面,存储和分析这些数据需要昂贵的硬件、软件和维护等资源。如何有效率地、经济地存储这些数据以及从这些数据中提取出价值,成为对这些公司乃至整个IT行业的巨大挑战。

为了应对这个挑战,大数据技术应运而生。2004年,Google发表了自己的分布式数据存储系统(GFS)和在GFS上获取数据的MapReduce系统。2006年,Yahoo建立了一个“Hadoop”系统原型,2008年,Yahoo在Hadoop框架上建立起第一个大数据商业应用系统,主要用于Yahoo的搜索业务。 在这之后、Facebook、Twitter、eBay等公司迅速跟进,也开始使用以Hadoop和MapReduce为基础的新一代数据处理技术。

时至今日,包括IBM、HP、EMC、Oracle、微软、Intel、TeraData等的IT企业纷纷推出自己的大数据解决方案。大数据技术应用前景广阔,2012年大数据市场已经达到116亿美元。IDC预计,到2017年,大数据市场将到达470亿美元。

收集和拥有大数据的最终目的是为了分析大数据,并提炼出与业务相关的价值。大数据的智能分析是大数据应用的关键一环。海量数据对金融、运营商等行业客户的业务进行智能分析提出了新的挑战。到目前为止,大数据技术已能够有效地对一些数量巨大、种类繁多、价值密度极低、本身快速变化的数据有效和低成本存取、检索、分类、统计。然而,如何能够同样有效和低成本地对收集和拥有的大数据进行智能地分析,从而充分挖掘大数据的经济价值和社会价值,是大数据技术面临的一大难题。

所幸,在人工智能领域,经过长期的研究,已经积累了很多研究方法和应用技术。例如,自然语言语义分析、信息提取、知识表现、自动化推理、机器学习等。这些技术目前正在逐步地应用于大数据技术的前沿领域,挖掘大数据蕴含的规律和价值,从而为人类决策提供支撑。

例如,Netflix的影片推荐系统、Facebook的社交图谱、Amazon的购物推荐系统等,已经依靠深度学习和其它人工智能方法,实现了大数据之上的巨大商业价值。Google还对大数据的机器深度学习和建立知识树Knowledge Graph投入巨大的研究资源,期望能够回答并帮助解决人类日常生活中普遍关心的问题。

另外,Google从2010年就开始研究无人驾驶汽车,至今已经在各种路段上进行了超过40万英里的行驶测试。Google无人驾驶汽车集成了大量传感器,包括一个激光距离探测器,4组雷达和一个摄像机,每秒钟产生的数据量高达1GB。在规模如此庞大的数据基础上,通过把这些数据和实时街景、GPS位置、地图等数据进行快速的比较,无人驾驶汽车能够根据系统中的人工智能软件,实时地、360°地感知附近的环境,自动完成驾驶操作,并在保证安全的情况下通过管理车速节省燃油消耗。

当然,棱镜计划、Google Glass、无人机技术等都是人工智能技术在大数据领域成功应用的知名案例。

不难看出,已有的人工智能技术已经能够使大数据的使用价值凸显出来,初步展现大数据的价值。但其实,人工智能的潜力还远远未被释放出来。

建立具有真正意义的人工智能系统,是人类一直以来的梦想。面向大数据和人工智能的研究近来呈现出螺旋上升式发展态势,大数据时代的到来,赋予人工智能新的起点、新的使命和新的召唤。

例如,在智慧城市建设方面,目前建立在以由传感器及电子摄像头等设备收集数据基础上的第一代智慧城市,其实处于神经系统发达而智慧能力不足的尴尬境地。随着各类传感器数据的不断增加,传统方法不能很好地处理这些海量数据,使得许多花大价钱购置的硬件设备成为摆设。面对拥堵的城市、雾霾的天气、已有的海量数据,城市“智商”的建立迫切需要借助于人工智能技术和大数据技术的发展成果。

近年来由大数据推动的人工智能技术研究有如下两个典型案例:IBM 公司的Watson系统是基于大数据技术的。它使用了自然语言语义分析、信息提取、知识表现、自动化推理、机器学习等人工智能方法,是当代人工智能研究的代表性成就。2013年2月,IBM宣布Watson系统第一次被应用在商业项目上:美国纽约Sloan–Kettering 癌症中心(Memorial Sloan–Kettering Cancer Center)的肺癌治疗设施使用了该系统。此项目由IBM和WellPoint保险公司合作发起。Watson项目领导人Manoj Saxena宣称,90%以上的护士现在都听从Watson系统的指导。最近,IBM将Watson系统对公众开放,期望建立起有更多应用的智能商业平台。

另外,在2012年6月,斯坦福大学吴恩达教授带领团队研发的Google Brain项目获得巨大成功。该项目使用了16000个CPU核的并行计算平台,训练一种具有10亿个节点,被称为“深度神经网络”的机器学习模型。该项目直接把海量数据输入系统,系统会自动从数据中学习。该模型在YouTube的海量视频数据中自动搜索“猫”,获得了成功。该团队因此获得了Google公司4700万美元的资金资助。

我们认为,大数据技术使解决人工智能的扩展性和成长性问题成为可能。以往的人工智能技术不能发展出与人类相似的学习能力、研究能力和创造能力,其中一个重要的原因是“机器得到的数据量和机器拥有的数据处理能力”与“产生人工智能所需要的数据量和数据处理能力”的不匹配,即人工智能是一件很复杂的事情,产生人工智能需要海量数据和对这些海量数据的超级处理能力,而以前的机器所得到的数据量和拥有的数据处理能力都是不足够的。人工智能的发展,正如人本身一样,需要学习大量的知识和经验,这些知识和经验需要海量的数据作为支持。大数据技术的发展,为分析和储存海量的数据提供了技术支持,使得机器得到的数据量和机器拥有的数据处理能力,与形成人工智能所需要的数据量和数据处理能力相匹配的矛盾得到了缓解。在这种情况下,人工智能的理论、方法和技术的巨大潜力才有可能被真正的逐步释放出来,实现人工智能的发展目标,并反过来进一步推动大数据技术的发展,形成有效的相互推动。我们相信,在人工智能技术和大数据技术不断相互促进发展的推动下,人工智能技术将有可能使机器真正获得自主学习和研究的能力,能够处理未预先定义的新的情况,并使其变成机器拥有的一种新知识,甚至演进出机器的创造能力,真正实现与人类相似甚至超越人类的智能。因此,大数据时代的到来,也开启了人工智能的新篇章。

总之,大数据和人工智能是现代计算机技术应用的重要分支,近年来这两个领域的研究相互交叉促进,产生了很多新的方法、应用和价值。大数据和人工智能具有天然的联系,大数据的发展本身使用了许多人工智能的理论和方法,人工智能也因大数据技术的发展步入了一个新的发展阶段,并反过来推动大数据的发展。因此,在不久的将来,我们不难想象,大数据和人工智能领域的各种理论和方法,会有加速的发展趋势,从而史无前例地影响整个人类的发展进程。