目录
目 录



前言

第一篇 概 念 篇



第1章 Spark概述2

1.1 Spark初见2

1.1.1 Spark的发展史及近况2

1.1.2 Spark的特点5

1.1.3 Spark的作用6

1.1.4 Spark的体系结构6

1.1.5 Spark的发展趋势6

1.2 Spark框架7

1.2.1 批处理框架7

1.2.2 流处理框架8

1.3 Spark的生态系统8

1.4 Spark的数据存储11

1.5 本章小结11

第2章 Spark环境配置12

2.1 Spark运行环境配置12

2.1.1 先决条件12

2.1.2 下载与运行 Spark13

2.1.3 使用交互式 Shell14

2.1.4 搭建Spark Standalone集群16

2.2 Spark开发环境配置18

2.2.1 Spark独立应用程序18

2.2.2 构建IDE开发环境24

2.3 Spark编译环境配置29

2.3.1 使用Maven编译项目源码30

2.3.2 使用IDEA搭建源码编译与

阅读环境31

2.4 本章小结35



第二篇 开 发 篇



第3章 Spark核心开发37

3.1 Spark编程模型概述37

3.2 SparkContext38

3.2.1 SparkContext的作用38

3.2.2 SparkContext的创建38

3.2.3 使用Shell41

3.2.4 应用实践41

3.3 RDD简介42

3.3.1 RDD创建42

3.3.2 RDD转换操作43

3.3.3 RDD动作操作44

3.3.4 RDD惰性计算44

3.3.5 RDD持久化44

3.3.6 RDD检查点45

3.4 共享变量45

3.4.1 广播变量45

3.4.2 累加器46

3.5 Spark核心开发实践46

3.5.1 单值型Trasnformation算子46

3.5.2 键值对型Transformation算子58

3.5.3 Action算子64

3.6 本章小结72

第4章 Spark四大应用技术框架73

4.1 Spark SQL73

4.1.1 Spark SQL入门73

4.1.2 数据源75

4.1.3 性能调优81

4.1.4 分布式SQL引擎82

4.1.5 Shark迁移至Spark SQL指南82

4.1.6 Hive的兼容性83

4.1.7 Spark SQL数据类型85

4.2 Spark Streaming86

4.2.1 Spark Streaming简介87

4.2.2 入门实例87

4.2.3 基本概念89

4.3 Spark GraphX97

4.3.1 Spark GraphX简介97

4.3.2 属性图98

4.3.3 图操作100

4.3.4 Pregel API108

4.3.5 图构造器110

4.3.6 顶点与边相关RDD111

4.3.7 最优化表示113

4.3.8 图算法114

4.3.9 Example116

4.4 Spark MLlib116

4.4.1 Spark MLlib简介116

4.4.2 数据类型117

4.4.3 基本统计分析121

4.4.4 分类与回归123

4.4.5 协同过滤136

4.4.6 聚类138

4.4.7 降维139

4.4.8 特征提取与转换141

4.4.9 频繁模式挖掘146

4.4.10 最优化算法147

4.4.11 导出PMML模式149

4.5 SparkR150

4.5.1 SparkR DataFrame150

4.5.2 DataFrame的相关操作152

4.5.3 从SparkR运行SQL查询153

第5章 Spark系统配置与调优154

5.1 Spark运行监控154

5.2 Spark配置参数158

5.2.1 应用属性159

5.2.2 运行环境属性159

5.2.3 Shuffle操作


按 Ctrl+p 打印本页】【关闭