本书是最全面的机器学习教材之一。书中首先介绍了机器学习的构成要素(任务、模型、特征)和机器学习任务,接着详细分析了逻辑模型(树模型、规则模型)、几何模型(线性模型和基于距离的模型)和概率模型,然后讨论了特征、模型的集成,以及被机器学习研究者称为“实验”的方法。作者不仅使用了已有术语,还引入了一些新的概念,同时提供了大量精选的示例和插图解说。
绪论 机器学习概述1
第1章 机器学习的构成要素9
1.1 任务:可通过机器学习解决的问题9
1.1.1 探寻结构11
1.1.2 性能评价13
1.2 模型:机器学习的输出14
1.2.1 几何模型14
1.2.2 概率模型17
1.2.3 逻辑模型22
1.2.4 分组模型与评分模型26
1.3 特征:机器学习的马达26
1.3.1 特征的两种用法28
1.3.2 特征的构造与变换29
1.3.3 特征之间的交互32
1.4 总结与展望33
第2章 两类分类及相关任务37
2.1 分类39
2.1.1 分类性能的评价40
2.1.2 分类性能的可视化43
2.2 评分与排序46
2.2.1 排序性能的评价及可视化48
2.2.2 将排序器转化为分类器52
2.3 类概率估计54
2.3.1 类概率估计量55
2.3.2 将排序器转化为概率估计子57
2.4 小结与延伸阅读59
第3章 超越两类分类61
3.1 处理多类问题61
3.1.1 多类分类61
3.1.2 多类得分及概率65
3.2 回归68
3.3 无监督学习及描述性学习70
3.3.1 预测性聚类与描述性聚类71
3.2.2 其他描述性模型74
3.4 小结与延伸阅读76
第4章 概念学习77
4.1 假设空间78
4.1.1 最小一般性79
4.1.2 内部析取82
4.2 通过假设空间的路径84
4.2.1 最一般相容假设86
4.2.2 封闭概念87
4.3 超越合取概念88
4.4 可学习性92
4.5 小结与延伸阅读94
第5章 树模型97
5.1 决策树100
5.2 排序与概率估计树103
5.3 作为减小方差的树学习方法110
5.3.1 回归树110
5.3.2 聚类树113
5.4 小结与延伸阅读115
第6章 规则模型117
6.1 学习有序规则列表117
6.2 学习无序规则集124
6.2.1 用于排序和概率估计的规则集128
6.2.2 深入探究规则重叠130
6.3 描述性规则学习131
6.3.1 用于子群发现的规则学习131
6.3.2 关联规则挖掘135
6.4 一阶规则学习139
6.5 小结与延伸阅读143
第7章 线性模型145
7.1 最小二乘法146
7.1.1 多元线性回归150
7.1.2 正则化回归153
7.1.3 利用最小二乘回归实现分类153
7.2 感知机155
7.3 支持向量机158
7.4 从线性分类器导出概率164
7.5 超越线性的核方法168
7.6 小结与延伸阅读170
第8章 基于距离的模型173
8.1 距离测度的多样性173
8.2 近邻与范例178
8.3 最近邻分类器182
8.4 基于距离的聚类184
8.4.1 K均值算法186
8.4.2 K中心点聚类187
8.4.3 silhouette188
8.5 层次聚类190
8.6 从核函数到距离194
8.7 小结与延伸阅读195
第9章 概率模型197
9.1 正态分布及其几何意义200
9.2 属性数据的概率模型205
9.2.1 利用朴素贝叶斯模型实现分类206
9.2.2 训练朴素贝叶斯模型209
9.3 通过优化条件似然实现鉴别式学习211
9.4 含隐变量的概率模型214
9.4.1 期望最大化算法215
9.4.2 高斯混合模型216
9.5 基于压缩的模型218
9.6 小结与延伸阅读220
第10章 特征223
10.1 特征的类型223
10.1.1 特征上的计算223
10.1.2 属性特征、有序特征及数量特征227
10.1.3 结构化特征228
10.2 特征变换229
10.2.1 阈值化与离散化229
10.2.2 归一化与标定234
10.2.3 特征缺失239
10.3 特征的构造与选择240
10.4 小结与延伸阅读243
第11章 模型的集成245
11.1 Bagging与随机森林246
11.2 Boosting247
11.3 集成学习进阶250
11.3.1 偏差、方差及裕量250
11.3.2 其他集成方法251
11.3.3 元学习252
11.4 小结与延伸阅读252
第12章 机器学习的实验255
12.1 度量指标的选择256
12.2 量指标的获取258
12.3 如何解释度量指标260
12.4 小结与延伸阅读264
后记 路在何方267
记忆要点269
参考文献271
本书讨论了全球信息栅格做什么,谁来用的问题,主要包括集中管理还是分散管理、谁来提供服务、谁提供何种服务等内容。本书中英文
《短线金手5:分时图战法实战剖析》内容简介:本书精选99种炒股分时图战法案例,结合私募实战操作分析,全方位解析分时图战法在实战
撬开你脑子里的那些困惑,让你重新认识游戏设计的真谛,人人都可以成为成功的游戏设计者!从更多的角度去审视你的游戏,从不完美的
《组织学习力:让组织能力跟上战略要求》内容简介:本书围绕组织学习话题,从组织学习氛围、团队共学方法、组织学习方法三个维度,
《摄影的核心:提升影像表现力的27个关键问题》内容简介:本书是一本鼓励摄影师更有自我意识、更有创造性思维的实用的摄影图书。书
《帝国首辅:张居正》内容简介:23岁初入官场,张居正是一个刚正不阿的理想主义者,却在亲历腥风血雨的内阁斗争后,痛悟了什么是政
作为网络程序员,你是否发现自己的应用程序远远不够健壮?那么,你需要了解编写高效TCP/IP程序所需的各种知识。本书正是这么一本
《三维CAD/CAM》内容简介:结合机械类专业的实际,以够用为度,主要讲述设计模块和加工模块。第一部分为设计模块(即CAD模块),主
《AcceleratedC++中文版》给人的印象会如此深刻呢?这是因为:●它一开始就向读者教导那些最有用的概念,而不是那些简单的注释读者
《Linux大棚命令百篇(上)》内容简介:《Linux大棚命令百篇(上):文件和文本篇》打破了市面上主流Linux命令书籍的写作风格,创新
《HBase原理与实践》内容简介:本书系统介绍HBase基本原理与运行机制,融入了作者多年的开发经验与实践技巧。主要内容包括:HBase的
二级MS Office高级应用-2016年全国计算机等级考试无纸化真考套装三合一-(全二册)-赠428元等考大礼包 本书特色 本书严格依据*新颁布的《全国计算机...
PEAR,thePHPExtensionandApplicationRepository,isabountifulresourceforanyPHPdevelo...
数据库系统工程师考试大纲 本书特色 数据库系统工程师是计算机技术与软件专业技术资格(水平)考试“信息系统”类的中级资格,于2020年审定通过并于2021年使用。...
《中东非阿拉伯国家智库研究》内容简介:本书对中东地区的三个非阿拉伯国家以色列、土耳其和伊朗的智库发展及对各国对外政策和中东
智能图像检索关键技术研究 本书特色 《智能图像检索关键技术研究》是毛金莲老师多年从事多媒体信息检索研究工作的系统性总结,包含了她对当前国际、国内在智能图像检索关...
《公立医院医师职业伦理现状及社会动因研究》内容简介:国当代医师职业群体的道德现状及伦理困境。结合新型医患关系的发展态势、当
汇编语言程序设计-第2版 本书特色 《汇编语言程序设计(第2版)》以Intel 80x86 CPU的指令系统为介绍对象,以并行推进的方式来介绍其16位和32位C...
《翻盘》内容简介:被动还是主动,决定人的生命层次。处于被动地位的人,越顺受越难受;占据主动的人,越征战越强悍。而“翻盘”的
新连接:互联网+产业转型,互联网+企业变革 本书特色 当前正处于信息通信技术飞速发展和社会经济面临转型的关键时期,有人兴奋,有人焦虑;有人坚定前行,有人迷茫失措...