目录
译者序

原书前言

作者和贡献者简介

第1章 数据科学概述 // 1

1.1 什么是数据科学 //1

1.2 关于本书 //2

第2章 数据专家的工具箱 //4

2.1 引言 // 4

2.2 为什么选择Python // 4

2.3 数据专家的基本Python库 // 5

2.3.1 数值和科学计算:NumPy和SciPy // 5

2.3.2 Scikit-learn:Python中的机器学习库 // 5

2.3.3 Pandas:Python数据分析库 // 5

2.4 数据科学生态系统的安装 // 6

2.5 集成开发环境 // 6

2.5.1 网络集成开发环境:Jupyter // 7

2.6 数据专家从Python开始 // 7

2.6.1 读取 // 11

2.6.2 选择数据 // 13

2.6.3 筛选数据 // 14

2.6.4 筛选缺失的数据 // 15

2.6.5 处理数据 // 15

2.6.6 排序 // 19

2.6.7 分组数据 // 20

2.6.8 重排数据 // 21

2.6.9 对数据进行排名 // 22

2.6.10 绘图 // 23

2.7 小结 // 24

第3章 描述统计学 // 25

3.1 引言 // 25

3.2 数据准备 // 25

3.2.1 Adult数据集示例 // 26

3.3 探索性数据分析 // 28

3.3.1 汇总数据 // 28

3.3.2 数据分布 // 31

3.3.3 离群点的处理 // 33

3.3.4 测量不对称性:偏度和皮尔逊中值偏度系数 // 36

3.3.5 连续分布 // 38

3.3.6 核密度 // 39

3.4 估计 // 41

3.4.1 样本和估计均值、方差和标准记分 // 41

3.4.2 协方差、皮尔逊相关和斯皮尔曼秩相关 // 42

3.5 小结 // 44

参考文献 // 45

第4章 统计推断 // 46

4.1 引言 // 46

4.2 统计推断:频率论方法 // 46

4.3 测量估计的差异性 // 47

4.3.1 点估计 // 47

4.3.2 置信区间 // 50

4.4 假设检验 // 53

4.4.1 用置信区间检验假设 // 53

4.4.2 使用p值检验假设 // 55

4.5 效应E是真实的吗 // 57

4.6 小结 // 57

参考文献 // 58

第5章 监督学习 // 59

5.1 引言 // 59

5.2 问题 // 60

5.3 第一步 // 60

5.4 什么是学习? // 69

5.5 学习曲线 // 70

5.6 训练、验证和测试 // 73

5.7 两种学习模型 // 76

5.7.1 学习三要素 // 76

5.7.2 支持向量机 // 77

5.7.3 随机森林 // 79

5.8 结束学习过程 // 80

5.9 商业案例 // 81

5.10 小结 // 83

参考文献 // 83

第6章 回归分析 // 84

6.1 引言 // 84

6.2 线性回归 // 84

6.2.1 简单线性回归 // 85

6.2.2 多元线性回归和多项式回归 // 90

6.2.3 稀疏模型 // 90

6.3 逻辑斯蒂回归 // 97

6.4 小结 // 99

参考文献 // 99

第7章 无监督学习 // 100

7.1 引言 // 100

7.2 聚类 // 100

7.2.1 相似度和距离 // 101

7.2.2 什么是一个好的聚类?定义衡量聚类质量的度量 // 101

7.2.3 聚类技术的分类标准 // 104

7.3 案例学习 // 113

7.4 小结 // 118

参考文献 // 119

第8章 网络分析 // 120

8.1 引言 // 120

8.2 图的基本定义 // 121

8.3 社交网络分析 // 122

8.3.1 NetworkX基础 // 122

8.3.2 实际案例:Facebook数据集 // 123

8.4 中心性 // 125

8.4.1 在图中绘制中心性 // 130

8.4.2 PageRank // 132

8.5 自我网络 // 134

8.6 社区发现 // 138

8.7 小结 // 139

参考文献 // 139

第9章 推荐系统 // 140

9.1 引言 // 140

9.2 推荐系统如何工作? // 140

9.2.1 基于内容的过滤 // 141

9.2.2 协作过滤 // 141

9.2.3 混合推荐系统 // 141

9.3 建模用户偏好 // 142

9.4 评估推荐系统 // 142

9.5 实际案例 // 143

9.5.1 MovieLens数据集 // 143

9.5.2 基于用户的协作过滤 // 145

9.6 小结 // 153

参考文献 // 153

第10章 用于情感分析的统计自然语言处理 // 154

10.1 引言 // 154

10.2 数据清洗 // 155

10.3 文本表示 // 158

10.3.1 二元组和n元组 // 163

10.4 实际案例 // 163

10.5 小结 // 168

参考文献 // 168

第11章 并行计算 // 169

11.1 引言 // 169

11.2 架构 // 170

11.2.1 入门指南 // 171

11.2.2 连接到集群(引擎)// 171

11.3 多核编程 // 172

11.3.1 引擎的直接视图 // 172

11.3.2 引擎的负载均衡视图 // 175

11.4 分布式计算 // 176

11.5 实际应用:纽约出租车旅行 // 177

11.5.1 直接视图非阻塞方案 // 178

11.5.2 实验结果 // 180

11.6 小结 // 182

参考文献 // 182



按 Ctrl+p 打印本页】【关闭