本书通俗易懂,有高中数学基础即可看懂,同时结合大量案例与漫画,将高度抽象的数学、算法与应用,与现实生活中的案例和事件一一做了关联,将源自生活的抽象还原出来,帮助读者理解后,又带领大家将这些抽象的规律与算法应用于实践,贴合读者需求。同时,本书不是割裂讲解大数据与机器学习的算法和应用,还讲解了其生态环境与关联内容,让读者更全面地知晓渊源与未来,是系统学习大数据与机器学习的不二之选:
·大数据产业解读一一剖析产业情况,人才供需、职业选择与相应“武器”库;
·步入大数据之门一一解读数据、信息、算法,以及与大数据应用的关系;
·大数据基石一一结合大量示例和漫画,趣味讲解大数据算法应掌握的数学知识,无障碍学习;
·大数据算法奥义——信息论、向量空间、回归、聚类、分类等最为核心的算法的释义与应用,举重若轻;
·大数据热门应用——关联分析、用户画像、推荐算法、文本挖掘、人工神经网络等最实用、最需要了解的应用的原理与实现;
·大数据主流框架一一介绍了主流的大数据框架(Hadoop、Spark和Cassandra);
·系统架构与调优一一从速度与稳定性方面给出调优的一般性“内功心法”;
·大数据价值与变现一一从运营指标、AB测试、大数据价值与变现场景多维度解读。
前言
第1章 大数据产业 1
1.1 大数据产业现状 1
1.2 对大数据产业的理解 2
1.3 大数据人才 3
1.3.1 供需失衡 3
1.3.2 人才方向 3
1.3.3 环节和工具 5
1.3.4 门槛障碍 6
1.4 小结 8
第2章 步入数据之门 9
2.1 什么是数据 9
2.2 什么是信息 10
2.3 什么是算法 12
2.4 统计、概率和数据挖掘 13
2.5 什么是商业智能 13
2.6 小结 14
第3章 排列组合与古典概型 15
3.1 排列组合的概念 16
3.1.1 公平的决断——扔硬币 16
3.1.2 非古典概型 17
3.2 排列组合的应用示例 18
3.2.1 双色球彩票 18
3.2.2 购车摇号 20
3.2.3 德州扑克 21
3.3 小结 25
第4章 统计与分布 27
4.1 加和值、平均值和标准差 27
4.1.1 加和值 28
4.1.2 平均值 29
4.1.3 标准差 30
4.2 加权均值 32
4.2.1 混合物定价 32
4.2.2 决策权衡 34
4.3 众数、中位数 35
4.3.1 众数 36
4.3.2 中位数 37
4.4 欧氏距离 37
4.5 曼哈顿距离 39
4.6 同比和环比 41
4.7 抽样 43
4.8 高斯分布 45
4.9 泊松分布 49
4.10 伯努利分布 52
4.11 小结 54
第5章 指标 55
5.1 什么是指标 55
5.2 指标化运营 58
5.2.1 指标的选择 58
5.2.2 指标体系的构建 62
5.3 小结 63
第6章 信息论 64
6.1 信息的定义 64
6.2 信息量 65
6.2.1 信息量的计算 65
6.2.2 信息量的理解 66
6.3 香农公式 68
6.4 熵 70
6.4.1 热力熵 70
6.4.2 信息熵 72
6.5 小结 75
第7章 多维向量空间 76
7.1 向量和维度 76
7.1.1 信息冗余 77
7.1.2 维度 79
7.2 矩阵和矩阵计算 80
7.3 数据立方体 83
7.4 上卷和下钻 85
7.5 小结 86
第8章 回归 87
8.1 线性回归 87
8.2 拟合 88
8.3 残差分析 94
8.4 过拟合 99
8.5 欠拟合 100
8.6 曲线拟合转化为线性拟合 101
8.7 小结 104
第9章 聚类 105
9.1 K-Means算法 106
9.2 有趣模式 109
9.3 孤立点 110
9.4 层次聚类 110
9.5 密度聚类 113
9.6 聚类评估 116
9.6.1 聚类趋势 117
9.6.2 簇数确定 119
9.6.3 测定聚类质量 121
9.7 小结 124
第10章 分类 125
10.1 朴素贝叶斯 126
10.1.1 天气的预测 128
10.1.2 疾病的预测 130
10.1.3 小结 132
10.2 决策树归纳 133
10.2.1 样本收集 135
10.2.2 信息增益 136
10.2.3 连续型变量 137
10.3 随机森林 140
10.4 隐马尔可夫模型 141
10.4.1 维特比算法 144
10.4.2 前向算法 151
10.5 支持向量机SVM 154
10.5.1 年龄和好坏 154
10.5.2 “下刀”不容易 157
10.5.3 距离有多远 158
10.5.4 N维度空间中的距离 159
10.5.5 超平面怎么画 160
10.5.6 分不开怎么办 160
10.5.7 示例 163
10.5.8 小结 164
10.6 遗传算法 164
10.6.1 进化过程 164
10.6.2 算法过程 165
10.6.3 背包问题 165
10.6.4 极大值问题 173
10.7 小结 181
第11章 关联分析 183
11.1 频繁模式和Apriori算法 184
11.1.1 频繁模式 184
11.1.2 支持度和置信度 185
11.1.3 经典的Apriori算法 187
11.1.4 求出所有频繁模式 190
11.2 关联分析与相关性分析 192
11.3 稀有模式和负模式 193
11.4 小结 194
第12章 用户画像 195
12.1 标签 195
12.2 画像的方法 196
12.2.1 结构化标签 196
12.2.2 非结构化标签 198
12.3 利用用户画像 203
12.3.1 割裂型用户画像 203
12.3.2 紧密型用户画像 204
12.3.3 到底“像不像” 204
12.4 小结 205
第13章 推荐算法 206
13.1 推荐思路 206
13.1.1 贝叶斯分类 206
13.1.2 利用搜索记录 207
13.2 User-based CF 209
13.3 Item-based CF 211
13.4 优化问题 215
13.5 小结 217
第14章 文本挖掘 218
14.1 文本挖掘的领域 218
14.2 文本分类 219
14.2.1 Rocchio算法 220
14.2.2 朴素贝叶斯算法 223
14.2.3 K-近邻算法 225
14.2.4 支持向量机SVM算法 226
14.3 小结 227
第15章 人工神经网络 228
15.1 人的神经网络 228
15.1.1 神经网络结构 229
15.1.2 结构模拟 230
15.1.3 训练与工作 231
15.2 FANN库简介 233
15.3 常见的神经网络 235
15.4 BP神经网络 235
15.4.1 结构和原理 236
15.4.2 训练过程 237
15.4.3 过程解释 240
15.4.4 示例 240
15.5 玻尔兹曼机 244
15.5.1 退火模型 244
15.5.2 玻尔兹曼机 245
15.6 卷积神经网络 247
15.6.1 卷积 248
15.6.2 图像识别 249
15.7 深度学习 255
15.8 小结 256
第16章 大数据框架简介 257
16.1 著名的大数据框架 257
16.2 Hadoop框架 258
16.2.1 MapReduce原理 259
16.2.2 安装Hadoop 261
16.2.3 经典的WordCount 264
16.3 Spark 框架 269
16.3.1 安装Spark 270
16.3.2 使用Scala计算WordCount 271
16.4 分布式列存储框架 272
16.5 PrestoDB——神奇的CLI 273
16.5.1 Presto为什么那么快 273
16.5.2 安装Presto 274
16.6 小结 277
第17章 系统架构和调优 278
17.1 速度——资源的配置 278
17.1.1 思路一:逻辑层面的优化 279
17.1.2 思路二:容器层面的优化 279
17.1.3 思路三:存储结构层面的优化 280
17.1.4 思路四:环节层面的优化 280
17.1.5 资源不足 281
17.2 稳定——资源的可用 282
17.2.1 借助云服务 282
17.2.2 锁分散 282
17.2.3 排队 283
17.2.4 谨防“雪崩” 283
17.3 小结 285
第18章 数据解读与数据的价值 286
18.1 运营指标 286
18.1.1 互联网类型公司常用指标 287
18.1.2 注意事项 288
18.2 AB测试 289
18.2.1 网页测试 290
18.2.2 方案测试 290
18.2.3 灰度发布 292
18.2.4 注意事项 293
18.3 数据可视化 295
18.3.1 图表 295
18.3.2 表格 299
18.4 多维度——大数据的灵魂 299
18.4.1 多大算大 299
18.4.2 大数据网络 300
18.4.3 去中心化才能活跃 301
18.4.4 数据会过剩吗 302
18.5 数据变现的场景 303
18.5.1 数据价值的衡量的讨论 303
18.5.2 场景1:征信数据 307
18.5.3 场景2:宏观数据 308
18.5.4 场景3:画像数据 309
18.6 小结 310
附录A VMware Workstation的安装 311
附录B CentOS虚拟机的安装方法 314
附录C Python语言简介 318
附录D Scikit-learn库简介 323
附录E FANN for Python安装 324
附录F 群众眼中的大数据 325
写作花絮 327
参考文献 329
深入浅出AutoCAD.NET二次开发B4003 本书特色 《深入浅出AutoCAD.NET二次开发(附光盘)》由李冠亿编,全书结构合理、图文并茂、讲解生动、实...
《Oracle数据库性能优化方法论和最佳实践》内容简介:Oracle性能优化一直是Oracle数据库实践中相对困难和神秘的领域,即使是资深DB
《细胞神经网络动力学》主要内容包括:细胞神经网络动力学是神经网络与动力系统交叉结合的一门新型学科,《细胞神经网络动力学》
程序员2003合订本(上下) 本书特色 《程序员2003合订本》由程序员杂志社联合电子工业出版社*新推出。本合订本沿袭2001、2002年《程序员合订本》的风格...
Google是一家酷而迷人、整个互联网都为之疯狂的公司。在一定程度上,Google就代表着互联网搜索。它在人们的意识中已经达到这样一
现代体系结构的优化编译器,ISBN:9787111141228,作者:(美)RandyAllen,(美)KenKennedy著;张兆庆等译;张兆庆译目录 第1
《富强竞争:工业文化与国家兴衰》内容简介:富强,是社会主义核心价值观之首,也是古今中外各个国家、民族孜孜以求的核心价值观,
作者结合丰富的设计案例,全面讲解了现代书籍设计的基本要素和流程,介绍了将书稿信息进行逻辑化、秩序化、艺术化和趣味化编排与
《基于供应链视角的食品质量安全管控体系的研究》内容简介:本书简要介绍食品供应链研究综述、食品质量安全问题研究综述、食品质量
《安全通论:刷新网络空间安全观》内容简介:本书构建了一套网络空间安全的统一基础理论体系,在理工科范围内(不含心理学、社会学
各位,下一個最好的投資機會,不在於股票、債券或房地產,而是原物料,也就是我們日常生活基本所需的大宗物資。聰明的投資人已經
工业设计人机工程-第2版 本书特色 《工业设计人机工程(第2版)》:普通高等教育“十一五”国家级规划教材工业设计人机工程-第2版 内容简介 本书为普通高等教育“...
《企业会计准则原文、应用指南案例详解(2023年版)》内容简介:企业会计准则是会计从业人员进行会计确认、会计计量、会计报告的基
《断瘾》内容简介:本书作者银子是一名资深的心理医生,她长期从事青少年网瘾及教育方面的咨询和治疗,具有丰富的临床经验。在书中
这本有趣而通俗易懂的著作包括了24篇短文,共分6个主题,每个主题下有4篇文章。这些主题涵盖了一些重要的遗传学话题——每一个都
《看·听·读(精装)》内容简介:本书为《列维-斯特劳斯文集》之一。在岁月的长河中,作者看过许多画,听过许多音乐,读过许多书,
在线广告:互联网广告系统的架构及算法 本书特色 在线广告是一个多学科交融的领域,本书力求系统地讲解在线广告的架构和算法,让读者对在线广告有一个整体的认识。全书共...
《零基础学Java(第5版)》内容简介:Java是使用面很广的面向对象的开发语言。本书站在零基础学习的角度,通过通俗易懂的语言和丰富
计算机基础及Photoshop应用-全国计算机等级考试一级教程-(2017年版) 本书特色 《全国计算机等级考试一级教程——计算机基础及...
《历史文化名城名镇名村系列:东村》内容简介:东村,古称“东园村”,这个太湖边尚存的为数不多的千年古村,历史遗存丰富,现存明