前言
前 言

随着互联网与移动终端行业的迅猛发展,企业和个体对数据相关服务需求不断提升,以Apache Hadoop为代表的分布式并行计算技术进一步发展,数据由量变而引发的质变正在全球范围内掀起深刻的技术与商业变革。在产业界,以数据驱动的发展策略也已逐渐被提升到前所未有的高度。在金融、电信、房地产和众多传统领域,沉积的数据价值开始被重视,这些公司逐渐在大数据领域加强资金和研发投入。在学术界,国内外越来越多的高校和研究机构在云计算和大数据领域投入大量的人力研究大数据及其相关技术。不仅如此,我国政府提出的“中国制造2025”战略规划和“互联网+”的概念也与大数据技术有着密不可分的联系,这更预示了大数据技术未来广阔的发展前景。

大数据的处理主要依靠分布式并行处理技术。本书主要介绍大数据分析平台的后起之秀Apache Spark。相对于人们近年来熟知的Apache Hadoop,Apache Spark具有基于内存计算、适合迭代计算并兼容多应用场景的特点,同时它还能兼容Hadoop生态系统中的组件,能吸收Hadoop的优点。经过短短6年的飞跃式发展,Spark已经成为业内颇具发展潜力的大数据分析平台之一。近两年召开的Spark Summit峰会,年均参会人数近2000人,业内对Spark的研究热情进一步提升,Spark的应用领域也在不断扩展,包括医疗、金融、O2O电商、政府、教育、电信、智慧城市和安全等,且在诸多领域都已经有Spark的成功应用案例。

编者基于国内外的研究和企业项目实践的经验,基于截稿时最新的Spark 1.4版来介绍Spark技术的应用实践和最新动向,让读者更容易地迈上Spark学习之路。

本书是国内(包括Github社区)较新的基于Spark 1.4版本的技术书籍,涵盖Spark技术的环境搭建、RDD实操应用、内部机制、调优和企业应用等内容,具体如下。

1)基于IntelliJ IDEA的运行、开发和编译环境的详细搭建过程。

2)详细介绍Spark技术基础概念和应用实践。

3)基于Spark 1.4官方文档对Spark四大应用框架进行解读。

4)基于最新源码深入剖析Spark的资源调度、任务调度和shuffle过程。

5)深入解读近两年Spark峰会和国内企业分享的典型应用案例。

本书的编写系统完整,力争以通俗易懂的语言全方位精细解读Spark技术,本书主要针对大数据技术初学者,包括但不限于大学生、研究生和工程师。此外,Spark应用开发人员、运维工程师和开源软件爱好者也可以将本书作为参考用书。

本书共分为概念、开发、机制和应用四篇,概念篇介绍Spark的背景概念和环境配置方法,开发篇介绍了Spark核心开发、四大应用框架和调优策略,机制篇则对Spark的RDD、调度和shuffle等机制进行解读,应用篇针对Spark在业界的典型应用进行阐述。

对于初学者,建议先学习Scala语言的基本语法,并从第1章起顺序阅读,搭建好开发环境,边学边进行代码实践。

对于已经有一定基础的读者可以跳过概念篇直接从第3章开始阅读,学习完第二篇开发篇,即Spark的应用操作后可以通过接着学习第三篇机制篇来加深理解。第四篇比较独立,在学习完概念篇之后就可以进行学习。

本书由刘驰主编,参与编写人员有符积高、徐闻春。在本书的编写过程中,始终本着科学、严谨的态度,力求精益求精,但错误、疏漏之处在所难免,敬请广大读者批评指正。





编 著

lincbit@gmail.com





按 Ctrl+p 打印本页】【关闭