本书是最全面的机器学习教材之一。书中首先介绍了机器学习的构成要素(任务、模型、特征)和机器学习任务,接着详细分析了逻辑模型(树模型、规则模型)、几何模型(线性模型和基于距离的模型)和概率模型,然后讨论了特征、模型的集成,以及被机器学习研究者称为“实验”的方法。作者不仅使用了已有术语,还引入了一些新的概念,同时提供了大量精选的示例和插图解说。
绪论 机器学习概述1
第1章 机器学习的构成要素9
1.1 任务:可通过机器学习解决的问题9
1.1.1 探寻结构11
1.1.2 性能评价13
1.2 模型:机器学习的输出14
1.2.1 几何模型14
1.2.2 概率模型17
1.2.3 逻辑模型22
1.2.4 分组模型与评分模型26
1.3 特征:机器学习的马达26
1.3.1 特征的两种用法28
1.3.2 特征的构造与变换29
1.3.3 特征之间的交互32
1.4 总结与展望33
第2章 两类分类及相关任务37
2.1 分类39
2.1.1 分类性能的评价40
2.1.2 分类性能的可视化43
2.2 评分与排序46
2.2.1 排序性能的评价及可视化48
2.2.2 将排序器转化为分类器52
2.3 类概率估计54
2.3.1 类概率估计量55
2.3.2 将排序器转化为概率估计子57
2.4 小结与延伸阅读59
第3章 超越两类分类61
3.1 处理多类问题61
3.1.1 多类分类61
3.1.2 多类得分及概率65
3.2 回归68
3.3 无监督学习及描述性学习70
3.3.1 预测性聚类与描述性聚类71
3.2.2 其他描述性模型74
3.4 小结与延伸阅读76
第4章 概念学习77
4.1 假设空间78
4.1.1 最小一般性79
4.1.2 内部析取82
4.2 通过假设空间的路径84
4.2.1 最一般相容假设86
4.2.2 封闭概念87
4.3 超越合取概念88
4.4 可学习性92
4.5 小结与延伸阅读94
第5章 树模型97
5.1 决策树100
5.2 排序与概率估计树103
5.3 作为减小方差的树学习方法110
5.3.1 回归树110
5.3.2 聚类树113
5.4 小结与延伸阅读115
第6章 规则模型117
6.1 学习有序规则列表117
6.2 学习无序规则集124
6.2.1 用于排序和概率估计的规则集128
6.2.2 深入探究规则重叠130
6.3 描述性规则学习131
6.3.1 用于子群发现的规则学习131
6.3.2 关联规则挖掘135
6.4 一阶规则学习139
6.5 小结与延伸阅读143
第7章 线性模型145
7.1 最小二乘法146
7.1.1 多元线性回归150
7.1.2 正则化回归153
7.1.3 利用最小二乘回归实现分类153
7.2 感知机155
7.3 支持向量机158
7.4 从线性分类器导出概率164
7.5 超越线性的核方法168
7.6 小结与延伸阅读170
第8章 基于距离的模型173
8.1 距离测度的多样性173
8.2 近邻与范例178
8.3 最近邻分类器182
8.4 基于距离的聚类184
8.4.1 K均值算法186
8.4.2 K中心点聚类187
8.4.3 silhouette188
8.5 层次聚类190
8.6 从核函数到距离194
8.7 小结与延伸阅读195
第9章 概率模型197
9.1 正态分布及其几何意义200
9.2 属性数据的概率模型205
9.2.1 利用朴素贝叶斯模型实现分类206
9.2.2 训练朴素贝叶斯模型209
9.3 通过优化条件似然实现鉴别式学习211
9.4 含隐变量的概率模型214
9.4.1 期望最大化算法215
9.4.2 高斯混合模型216
9.5 基于压缩的模型218
9.6 小结与延伸阅读220
第10章 特征223
10.1 特征的类型223
10.1.1 特征上的计算223
10.1.2 属性特征、有序特征及数量特征227
10.1.3 结构化特征228
10.2 特征变换229
10.2.1 阈值化与离散化229
10.2.2 归一化与标定234
10.2.3 特征缺失239
10.3 特征的构造与选择240
10.4 小结与延伸阅读243
第11章 模型的集成245
11.1 Bagging与随机森林246
11.2 Boosting247
11.3 集成学习进阶250
11.3.1 偏差、方差及裕量250
11.3.2 其他集成方法251
11.3.3 元学习252
11.4 小结与延伸阅读252
第12章 机器学习的实验255
12.1 度量指标的选择256
12.2 量指标的获取258
12.3 如何解释度量指标260
12.4 小结与延伸阅读264
后记 路在何方267
记忆要点269
参考文献271
《鲁迅自编文集:伪自由书》内容简介:鲁迅经典杂文集,收录鲁迅寄给《申报》上的《自由谈》的杂感及一些笔战文章。冷嘲热讽讥评时
数据结构与算法分析:Java语言描述 本书特色 第2版的特色如下:全面阐述新的java 5.0编程语言和java collections库。改进内部设计,用图和...
电商、O2O、P2P、互联网金融等概念先是被疯狂追捧,在泡沫越吹越大之后便是哀鸿遍野。这本书正是解答泡沫破灭之后怎么办?自从以
计算机组成及汇编语言原理英文版 内容简介 这本有创新性的书以Java虚拟机为例介绍了计算机组成及汇编语言的原理,Java虚拟机是一个极为便利、时新,可移植以及几...
《SQL反模式》是一本广受好评的SQL图书。它介绍了如何避免在SQL的使用和开发中陷入一些常见却经常被忽略的误区。它通过讲述各种具
Tmall商家成长部(peixun.tmall.com)诞生于天猫旗下,肩负整个天猫电商成长与发展的重任,担负着中国电子商务转型与升级的使命。
《零基础学:微信小程序开发》内容简介:本书从微信小程序的结构及其常用的API开始,讲解了微信开发工具各面板的功能和使用、常用框
《书法讲座》内容简介:本书以通俗易懂的讲座形式,全面讲述书法的发展历程、书法的美学、书法创作实践等。不仅重形而下之技法,更
ThesecondeditionofHaskell:TheCraftofFunctionalProgrammingisessentialreadingforbe...
《名医推荐家庭必备方剂丛书:名医推荐家庭必备药膳》内容简介:本书涵盖内科、外科、妇科、儿科等各大系统常见病、多发病及部分少
本书集Web2.0的发展及特点、Web2.0界面设计模式基本理论、实际模式实践及代码实现等诸多内容于一身,具有很强的实用性。这些内容
CATIA V5 从入门到精通 本书特色 《CATIA V5从入门到精通》是上海软件行业协会秘书长,长根兴,江苏省软件行业协会副会长徐雷,盛选禹哲。3大综合案例...
Django,thePython-basedequivalenttotheRubyonRailswebdevelopmentframework,ispresen...
《Linux虚拟化数据中心实战》内容简介:本书共8章,采用循序渐进的方式,帮助读者掌握Linux虚拟化架构的部署和使用,包括开源虚拟化
不要懷疑,所有的問題都可以用圖畫來釐清。你不用具備什麼繪畫技巧,只要會畫圓圈、方塊、箭頭,然後按照作者的指示,一步一步,
成功的网站设计团队依赖开发人员与客户之间的良好沟通,也离不开开发团队内部成员之间的沟通。线框图、站点地图、流程图和其他设
《第一等人》内容简介:☆侯家的第一位进士、第一位官员、侯峒曾的曾祖父侯尧封,生平对儿孙说的最多的一句话是:“不愿汝辈它日为
《爱是万能的调味》内容简介:爱是世间最美的味道,爱是世间万能的调味品。爱是流淌在生命里,妈妈的味道。台湾地区著名的私房菜老
《未来的企业:中国企业高质量发展之道》内容简介:市场主体是国民经济的细胞,是整个国民经济体系的基础环节。“黑天鹅”也好,“
《互联网+模型构建》内容简介:“互联网+”构建了一个庞大的跨界体系,在这个框架下,大数据、云计算、移动互联、物联网、虚拟现实