本书是最全面的机器学习教材之一。书中首先介绍了机器学习的构成要素(任务、模型、特征)和机器学习任务,接着详细分析了逻辑模型(树模型、规则模型)、几何模型(线性模型和基于距离的模型)和概率模型,然后讨论了特征、模型的集成,以及被机器学习研究者称为“实验”的方法。作者不仅使用了已有术语,还引入了一些新的概念,同时提供了大量精选的示例和插图解说。
绪论 机器学习概述1
第1章 机器学习的构成要素9
1.1 任务:可通过机器学习解决的问题9
1.1.1 探寻结构11
1.1.2 性能评价13
1.2 模型:机器学习的输出14
1.2.1 几何模型14
1.2.2 概率模型17
1.2.3 逻辑模型22
1.2.4 分组模型与评分模型26
1.3 特征:机器学习的马达26
1.3.1 特征的两种用法28
1.3.2 特征的构造与变换29
1.3.3 特征之间的交互32
1.4 总结与展望33
第2章 两类分类及相关任务37
2.1 分类39
2.1.1 分类性能的评价40
2.1.2 分类性能的可视化43
2.2 评分与排序46
2.2.1 排序性能的评价及可视化48
2.2.2 将排序器转化为分类器52
2.3 类概率估计54
2.3.1 类概率估计量55
2.3.2 将排序器转化为概率估计子57
2.4 小结与延伸阅读59
第3章 超越两类分类61
3.1 处理多类问题61
3.1.1 多类分类61
3.1.2 多类得分及概率65
3.2 回归68
3.3 无监督学习及描述性学习70
3.3.1 预测性聚类与描述性聚类71
3.2.2 其他描述性模型74
3.4 小结与延伸阅读76
第4章 概念学习77
4.1 假设空间78
4.1.1 最小一般性79
4.1.2 内部析取82
4.2 通过假设空间的路径84
4.2.1 最一般相容假设86
4.2.2 封闭概念87
4.3 超越合取概念88
4.4 可学习性92
4.5 小结与延伸阅读94
第5章 树模型97
5.1 决策树100
5.2 排序与概率估计树103
5.3 作为减小方差的树学习方法110
5.3.1 回归树110
5.3.2 聚类树113
5.4 小结与延伸阅读115
第6章 规则模型117
6.1 学习有序规则列表117
6.2 学习无序规则集124
6.2.1 用于排序和概率估计的规则集128
6.2.2 深入探究规则重叠130
6.3 描述性规则学习131
6.3.1 用于子群发现的规则学习131
6.3.2 关联规则挖掘135
6.4 一阶规则学习139
6.5 小结与延伸阅读143
第7章 线性模型145
7.1 最小二乘法146
7.1.1 多元线性回归150
7.1.2 正则化回归153
7.1.3 利用最小二乘回归实现分类153
7.2 感知机155
7.3 支持向量机158
7.4 从线性分类器导出概率164
7.5 超越线性的核方法168
7.6 小结与延伸阅读170
第8章 基于距离的模型173
8.1 距离测度的多样性173
8.2 近邻与范例178
8.3 最近邻分类器182
8.4 基于距离的聚类184
8.4.1 K均值算法186
8.4.2 K中心点聚类187
8.4.3 silhouette188
8.5 层次聚类190
8.6 从核函数到距离194
8.7 小结与延伸阅读195
第9章 概率模型197
9.1 正态分布及其几何意义200
9.2 属性数据的概率模型205
9.2.1 利用朴素贝叶斯模型实现分类206
9.2.2 训练朴素贝叶斯模型209
9.3 通过优化条件似然实现鉴别式学习211
9.4 含隐变量的概率模型214
9.4.1 期望最大化算法215
9.4.2 高斯混合模型216
9.5 基于压缩的模型218
9.6 小结与延伸阅读220
第10章 特征223
10.1 特征的类型223
10.1.1 特征上的计算223
10.1.2 属性特征、有序特征及数量特征227
10.1.3 结构化特征228
10.2 特征变换229
10.2.1 阈值化与离散化229
10.2.2 归一化与标定234
10.2.3 特征缺失239
10.3 特征的构造与选择240
10.4 小结与延伸阅读243
第11章 模型的集成245
11.1 Bagging与随机森林246
11.2 Boosting247
11.3 集成学习进阶250
11.3.1 偏差、方差及裕量250
11.3.2 其他集成方法251
11.3.3 元学习252
11.4 小结与延伸阅读252
第12章 机器学习的实验255
12.1 度量指标的选择256
12.2 量指标的获取258
12.3 如何解释度量指标260
12.4 小结与延伸阅读264
后记 路在何方267
记忆要点269
参考文献271
《区块链开发实战:实用案例分析》内容简介:第1章是概览章节,介绍区块链技术的基本理念。第2章首先通过创建一个客户友好型支付系
《Node.js硬实战:115个核心技巧》是一本面向实战的Node.js开发进阶指南。作为资深专家,《Node.js硬实战:115个核心技巧》作者独
《HAWQ数据仓库与数据挖掘实战》内容简介:ApacheHAWQ是一个SQL-on-Hadoop产品,它非常适合用于Hadoop平台上快速构建数据仓库系统。
原田进:1975-1977年就读美国加州旧金山艺术大学设计系1977-198年在美国、欧洲设计公司工作198年返回日本,进入Paos株式会社工作
遥感应用分析原理与方法-(第二版) 本书特色 本书是一本全面系统论述遥感原理及其应用分析方法的基础理论著作。全书共16章,包括三大部分内容。**部分:第1至第5...
《2014年GCT真题模拟题归类解析及知识点清单.语文分册》内容简介:本书对历年真题和自测试题都进行了详细的解析,尤其是对解题思路
假如,给你一间老房子,你要用它做什么?咖啡馆、民宿、饮食空间、小酒馆……在本书中,你或许可以寻找到答案。30个台湾老屋的再
《使用GitOps实现Kubernetes的持续部署:模式、流程及工具》内容简介:本书提供了通过GitOps使用Kubernetes的实用教程,内容涵盖Gi
本书由畅销书《JavainaNutshell》的作者DavidFlanagan撰写,是公认的权威JavaScript程序员指南和参考手册。JavaScript是...
《日本在近代中国的投资》内容简介:日本对华侵略触及两国关系的各个领域,经济侵略与掠夺是不可忽视的方面。本书挖掘了大量档案文
软件功能测试基于Quick Test Professional应用 本书特色 《软件功能测试--基于QuickTest Professional应用》由李晓鹏、...
Web安全设计之道-.NET代码安全.界面漏洞防范与程序优化 本书特色 黑客入侵、挂马、网页篡改……网络系统安全的种种问题令人困扰,是否有方法能彻底解决这些安全...
本书是C++程序员进阶修炼的必读之作,包含的全部都是C++编码的最佳实践,从语法、编码规范和编程习惯、程序架构和设计思想等三大
本书从实践者的角度,在讲解Docker高级实践技巧的同时,深入到源代码层次,为读者梳理出Docker容器技术和基于Docker的容器云技术
《不烦恼的月子生活:开心做妈妈》内容简介:对新妈妈而言,宝宝的出生并不意味孕产生活的结束,而是一段影响终身的坐月子生活的开
《所思不远》内容简介:本书为知·趣丛书之一种。作者选取朱彝尊、陈维崧、纳兰容若、王昙、金礼赢、黄仲则、龚自珍、谭嗣同、吴保
《深入理解Android:卷2》是“深入理解Android”系列的第2本,第1本书上市后获得广大读者高度评价,在Android开发者社群内口口相传
《澄衷蒙学堂字课图说》内容简介:中国文字,字字有德性,字字有灵性。小到一个“天”字、一个“人”字,也许就包含着古人的哲学观
矿山水害空间数据挖掘与知识发现的支持向量机理论与方法 内容简介 本书分为理论与应用两大部分, 在理论部分对支持向量机的训练参数、核函数及核参数的选择进行了探讨,...
《木之匙》是日本木艺大师三谷龙二的第一本散文集,也是他最具代表性的作品。在这本散文集当中,三谷龙二讲述了木器与人的关系。