京ICP备14002071号-1查看 »

×

英特尔 让AI普适化,将价值“支点”无限靠近“数据”

关闭

对于科研学者而言,AI(人工智能)核心议题是一个数学问题。而AI领域中的门派争斗,在经历了半个多世纪后,才因以英特尔为代表的处理器计算力得到指数级提升,才算初步尘埃落定——“深度学习”。计算能力的提升与成本的下降,,以Apache Hadoop为生态系统的平台,成为数据处理的标准,众多企业都基于Apache Hadoop建立了数据的平台,无疑为企业推进AI实践奠定了基础。但现实情况是,当AI技术在企业应用落地过程时却面临某种“断层”的挑战。

这种AI在实践应用过程中“断层”的出现,英特尔高级首席工程师、大数据技术全球CTO戴金权在深圳召开的2018全球人工智慧与机器人峰会(CCF-GAIR)上做了进一步解读。当下企业所开展的“深度学习”方式,大多采用将数据从原有分布式存储集群中剥离出来,单独存放在一个集群之中。这种方式不仅提升了成本,同时就数据完整性而言也存在不足。戴金权说道:“工业级数据是一个动态的过程,通常采用分布式存储,如果能够直接在数据存储的地方就可以进行处理(‘深度学习’),就可以解决数据拷贝到另外一个集群过程时,带来的各种挑战和瓶颈。”

戴金权 英特尔高级首席工程师、大数据技术全球CTO

除了确保数据的完整性,实现在本地分布式存储系统中开展 “深度学习”的需求之外,戴金权还指出,今天的数据工程师、数据科学家、分析师乃至普通用户与深度学习专家的诉求有明显不同,前者更希望能够借助成熟的工具,借用深度学习专家提供的框架,高效的让大数据资源发挥价值。两者之间的诉求差异,需要一种工具来加快AI应用广度和深度。

基于这两个关键诉求,英特尔开发并且开源了基于Apache Spark的分布式深度学习框架——BigDL。企业用户可以在原有基于英特尔至强架构的大数据平台上开展AI应用。Apache Spark是目前在业内使用最广泛的大数据分析引擎,其上支持SQL处理,对R语言支持,对数据实时流的处理以及对传统机器语言的支持。英特尔BigDL则是面向Apache Spark的分布式深度学习框架。企业用户用BigDL来开发的标准Spark应用程序,可以直接运行在现有Hadoop大数据集群上。“这是我们为企业开展AI实践时做的一件事,在大数据集群里,基于BigDL框架提供原生的深度学习支持。”戴金权说道。

BigDL开源不到半年,英特尔根据用户反馈推出了基于Apache Spark和BigDL的“大数据分析+AI”平台——Analytics Zoo。企业用户通过Analytics Zoo,可以方便的将TensorFlow或者Caffe框架模型无缝的应用在现有大数据环境之中。“我们的用户可以更方便的构建端到端的大数据加上深度学习的应用。这种构建不是独立组件的组合,而是用户可以直接在平台上,端到端的搭建AI应用。”戴金权说道。

目前,国内知名电商——京东已经在应用BigDL的过程中取得了显著收效。京东在分布式存储系统中存有几亿张图片。此前京东借助GPU卡来实现图片识别,无论是在端到端的流水线,还是在处理效率上都遇到一些挑战,“当我们把整个处理的应用迁移到Spark和BigDL平台上,借助英特尔至强可扩展处理器所构建的集群,最终整体性能相对GPU集群实现了3.8倍的提升。”戴金权说道。除此之外,在医学影像方面,英特尔与加州大学旧金山分校(UCSF)针对BigDL就3D模型对医疗图象进行分类识别、病情诊断等领域进行合作;在自然语音处理方面,英特尔和GigaSpaces基于BigDL在实现自然语言处理对呼叫中心进行管理方面进行合作。

BigDL以及近期推出的Analytics Zoo,其根本动因来自于英特尔希望以最有效、最快捷的方式将AI的商业价值尽早在企业应用中得到落地。BigDL实现了在原生大数据平台之中开展AI应用、Analytics Zoo让用户能够快速部署各类成熟模型,这一系列的技术实现有赖于底层至强架构的支撑,而软件技术的创新挪动了“杠杆中支点的位置”,让用户更为轻易的撬开AI的商业潜力。

返回顶部