Python中文网

这本Python数据科学与机器学习 从入门到实践图书,是2019-06-01月由人民邮电出版社所出版的,著作者信息: [美] 弗兰克·凯恩(Frank Kane) 著,陈光欣 译,本版是第1次印刷, ISBN:9787115512413,品牌:人民邮电出版社, 这本书的包装是16开平装,所用纸张为胶版纸,全书页数273,字数有万字, 是本值得推荐的Python软件开发图书。

此书内容摘要

本书介绍了使用Python进行数据分析和高效的机器学习,首先从一节Python速成课开始,然后回顾统计学和概率论的基础知识,接着深入讨论与数据挖掘和机器学习相关的60多个主题,包括贝叶斯定理、聚类、决策树、回归分析、实验设计等。

关于此书作者

Frank Kane,Sundog Software公司创始人,曾在美亚和IMDb工作近9年,在分布式计算、数据挖掘和机器学习等领域持有17项专利。

【译者简介】

陈光欣,毕业于清华大学并留校工作,主要兴趣为数据分析与数据挖掘。

编辑们的推荐

数据科学家实践指南,依据高科技公司中数据科学家的职位描述和要求,创作本书。
提供三大实战案例:
1.使用真实的电影评分数据创建一个电影推荐系统;
2.创建一个能实际运行的维基百科数据搜索引擎;
3.创建一个垃圾邮件分类器,可以对邮件账户中的垃圾邮件和正常邮件进行正确的分类。

本书涵盖准备分析数据、训练机器学习模型和可视化分析结果等主题,有助你提高使用Python高效地进行数据分析和机器学习的能力,并建立信心以更好地分析自己的机器学习模型。

●清理和准备数据,使其可用于分析
●应用Python中流行的聚类和回归方法
●使用决策树和随机森林训练高效的机器学习模型
●使用Python Matplotlib库对分析结果进行可视化
●使用Apache Spark的MLlib包在大型数据库上进行机器学习

Python数据科学与机器学习 从入门到实践图书的目录

第 1 章 入门 1
1.1安装Enthought Canopy1
1.2使用并理解IPython/Jupyter Notebook6
1.3Python基础——第 一部分9
1.4理解Python代码11
1.5导入模块13
1.5.1数据结构13
1.5.2使用列表14
1.5.3元组17
1.5.4字典18
1.6Python基础——第二部分20
1.6.1Python中的函数20
1.6.2循环23
1.6.3探索活动24
1.7运行Python脚本24
1.7.1运行Python代码的其他方式25
1.7.2在命令行中运行Python脚本25
1.7.3使用Canopy IDE26
1.8小结28
第2 章 统计与概率复习以及Python实现29
2.1数据类型29
2.1.1数值型数据30
2.1.2分类数据30
2.1.3定序数据31
2.2均值、中位数和众数32
2.2.1均值32
2.2.2中位数33
2.2.3众数34
2.3在Python中使用均值、中位数和众数35
2.3.1使用NumPy包计算均值35
2.3.2使用NumPy包计算中位数36
2.3.3使用SciPy包计算众数37
2.4标准差和方差40
2.4.1方差40
2.4.2标准差42
2.4.3总体方差与样本方差42
2.4.4在直方图上分析标准差和方差44
2.4.5使用Python计算标准差和方差44
2.4.6自己动手45
2.5概率密度函数和概率质量函数45
2.5.1概率密度函数45
2.5.2概率质量函数46
2.6各种类型的数据分布47
2.6.1均匀分布47
2.6.2正态分布或高斯分布48
2.6.3指数概率分布与指数定律50
2.6.4二项式概率质量函数50
2.6.5泊松概率质量函数51
2.7百分位数和矩52
2.7.1百分位数53
2.7.2矩56
2.8小结60
第3 章 Matplotlib与概率高级概念61
3.1Matplotlib快速学习61
3.1.1在一张图形上进行多次绘图62
3.1.2将图形保存为文件63
3.1.3调整坐标轴64
3.1.4添加网格65
3.1.5修改线型和颜色65
3.1.6标记坐标轴并添加图例68
3.1.7一个有趣的例子69
3.1.8生成饼图70
3.1.9生成条形图71
3.1.10生成散点图72
3.1.11生成直方图72
3.1.12生成箱线图73
3.1.13自己动手74
3.2协方差与相关系数74
3.2.1概念定义75
3.2.2相关系数76
3.2.3在Python中计算协方差和相关系数76
3.2.4相关系数练习80
3.3条件概率80
3.3.1Python中的条件概率练习81
3.3.2条件概率作业84
3.3.3作业答案85
3.4贝叶斯定理86
3.5小结88
第4 章 预测模型89
4.1线性回归89
4.1.1普通最小二乘法90
4.1.2梯度下降法91
4.1.3判定系数或r方91
4.1.4使用Python进行线性回归并计算r方92
4.1.5线性回归练习94
4.2多项式回归95
4.2.1使用NumPy实现多项式回归96
4.2.2计算r方误差98
4.2.3多项式回归练习98
4.3多元回归和汽车价格预测99
4.3.1使用Python进行多元回归100
4.3.2多元回归练习102
4.4多水平模型102
4.5小结104
第5 章 使用Python进行机器学习105
5.1机器学习及训练/测试法105
5.1.1非监督式学习106
5.1.2监督式学习107
5.2使用训练/测试法防止多项式回归中的过拟合109
5.3贝叶斯方法——概念113
5.4使用朴素贝叶斯实现垃圾邮件分类器115
5.5k均值聚类118
5.6基于收入与年龄进行人群聚类121
5.7熵的度量123
5.8决策树——概念124
5.8.1决策树实例126
5.8.2生成决策树127
5.8.3随机森林127
5.9决策树——使用Python预测录用决策128
5.9.1集成学习——使用随机森林132
5.9.2练习133
5.10集成学习133
5.11支持向量机简介135
5.12使用scikit-learn通过SVM进行人员聚集137
5.13小结140
第6 章 推荐系统141
6.1什么是推荐系统141
6.2基于项目的协同过滤145
6.3基于项目的协同过滤是如何工作的146
6.4找出电影相似度149
6.5改善电影相似度结果155
6.6向人们推荐电影159
6.7改善推荐结果165
6.8小结167
第7 章 更多数据挖掘和机器学习技术168
7.1k最近邻的概念168
7.2使用KNN预测电影评分170
7.3数据降维与主成分分析176
7.3.1数据降维176
7.3.2主成分分析177
7.4对鸢尾花数据集的PCA示例178
7.5数据仓库简介182
7.6强化学习184
7.6.1Q-learning185
7.6.2探索问题186
7.6.3时髦名词186
7.7小结188
第8 章 处理真实数据189
8.1偏差-方差权衡189
8.2使用k折交叉验证避免过拟合192
8.3数据清理和标准化196
8.4清理Web日志数据198
8.4.1对Web日志应用正则表达式198
8.4.2修改1——筛选请求字段200
8.4.3修改2——筛选post请求201
8.4.4修改3——检查用户代理203
8.4.5筛选爬虫与机器人204
8.4.6修改4——使用网站专用筛选器205
8.4.7Web日志数据练习206
8.5数值型数据的标准化207
8.6检测异常值208
8.6.1处理异常值209
8.6.2异常值练习211
8.7小结211
第9 章 Apache Spark——大数据上的机器学习212
9.1安装Spark212
9.1.1在Windows系统中安装Spark213
9.1.2在其他操作系统上安装Spark214
9.1.3安装Java Development Kit214
9.1.4安装Spark217
9.2Spark简介227
9.2.1可伸缩227
9.2.2速度快228
9.2.3充满活力229
9.2.4易于使用229
9.2.5Spark组件229
9.2.6在Spark中使用Python还是Scala230
9.3Spark和弹性分布式数据集231
9.3.1SparkContext对象231
9.3.2创建RDD232
9.3.3更多创建RDD的方法233
9.3.4RDD操作233
9.4MLlib简介235
9.4.1MLlib功能235
9.4.2MLlib特殊数据类型236
9.5在Spark中使用MLlib实现决策树236
9.6在Spark中实现k均值聚类245
9.7TF-IDF250
9.7.1TF-IDF实战250
9.7.2使用TF-IDF251
9.8使用Spark MLlib搜索维基百科251
9.8.1导入语句252
9.8.2创建初始RDD252
9.8.3创建并转换HashingTF对象253
9.8.4计算TF-IDF得分254
9.8.5使用维基百科搜索引擎算法254
9.8.6运行算法255
9.9使用Spark 2.0中的MLlib数据框API255
9.10小结259
第10 章 测试与实验设计260
10.1A/B测试的概念260
10.1.1A/B测试260
10.1.2A/B测试的转化效果测量262
10.1.3小心方差263
10.2t检验与p值263
10.2.1t统计量或t检验264
10.2.2p值264
10.3使用Python计算t统计量和p值265
10.3.1使用实验数据进行A/B测试265
10.3.2样本量有关系吗267
10.4确定实验持续时间268
10.5A/B测试中的陷阱269
10.5.1新奇性效应270
10.5.2季节性效应271
10.5.3选择性偏差271
10.5.4数据污染272
10.5.5归因错误272
10.6小结273

部分内容试读

暂无.

关于此书评价

暂无.

书摘内容

暂无.

Python数据科学与机器学习 从入门到实践最新最全的试读、书评、目录、简介信息由Python中文网整理提供。