本书是最全面的机器学习教材之一。书中首先介绍了机器学习的构成要素(任务、模型、特征)和机器学习任务,接着详细分析了逻辑模型(树模型、规则模型)、几何模型(线性模型和基于距离的模型)和概率模型,然后讨论了特征、模型的集成,以及被机器学习研究者称为“实验”的方法。作者不仅使用了已有术语,还引入了一些新的概念,同时提供了大量精选的示例和插图解说。
绪论 机器学习概述1
第1章 机器学习的构成要素9
1.1 任务:可通过机器学习解决的问题9
1.1.1 探寻结构11
1.1.2 性能评价13
1.2 模型:机器学习的输出14
1.2.1 几何模型14
1.2.2 概率模型17
1.2.3 逻辑模型22
1.2.4 分组模型与评分模型26
1.3 特征:机器学习的马达26
1.3.1 特征的两种用法28
1.3.2 特征的构造与变换29
1.3.3 特征之间的交互32
1.4 总结与展望33
第2章 两类分类及相关任务37
2.1 分类39
2.1.1 分类性能的评价40
2.1.2 分类性能的可视化43
2.2 评分与排序46
2.2.1 排序性能的评价及可视化48
2.2.2 将排序器转化为分类器52
2.3 类概率估计54
2.3.1 类概率估计量55
2.3.2 将排序器转化为概率估计子57
2.4 小结与延伸阅读59
第3章 超越两类分类61
3.1 处理多类问题61
3.1.1 多类分类61
3.1.2 多类得分及概率65
3.2 回归68
3.3 无监督学习及描述性学习70
3.3.1 预测性聚类与描述性聚类71
3.2.2 其他描述性模型74
3.4 小结与延伸阅读76
第4章 概念学习77
4.1 假设空间78
4.1.1 最小一般性79
4.1.2 内部析取82
4.2 通过假设空间的路径84
4.2.1 最一般相容假设86
4.2.2 封闭概念87
4.3 超越合取概念88
4.4 可学习性92
4.5 小结与延伸阅读94
第5章 树模型97
5.1 决策树100
5.2 排序与概率估计树103
5.3 作为减小方差的树学习方法110
5.3.1 回归树110
5.3.2 聚类树113
5.4 小结与延伸阅读115
第6章 规则模型117
6.1 学习有序规则列表117
6.2 学习无序规则集124
6.2.1 用于排序和概率估计的规则集128
6.2.2 深入探究规则重叠130
6.3 描述性规则学习131
6.3.1 用于子群发现的规则学习131
6.3.2 关联规则挖掘135
6.4 一阶规则学习139
6.5 小结与延伸阅读143
第7章 线性模型145
7.1 最小二乘法146
7.1.1 多元线性回归150
7.1.2 正则化回归153
7.1.3 利用最小二乘回归实现分类153
7.2 感知机155
7.3 支持向量机158
7.4 从线性分类器导出概率164
7.5 超越线性的核方法168
7.6 小结与延伸阅读170
第8章 基于距离的模型173
8.1 距离测度的多样性173
8.2 近邻与范例178
8.3 最近邻分类器182
8.4 基于距离的聚类184
8.4.1 K均值算法186
8.4.2 K中心点聚类187
8.4.3 silhouette188
8.5 层次聚类190
8.6 从核函数到距离194
8.7 小结与延伸阅读195
第9章 概率模型197
9.1 正态分布及其几何意义200
9.2 属性数据的概率模型205
9.2.1 利用朴素贝叶斯模型实现分类206
9.2.2 训练朴素贝叶斯模型209
9.3 通过优化条件似然实现鉴别式学习211
9.4 含隐变量的概率模型214
9.4.1 期望最大化算法215
9.4.2 高斯混合模型216
9.5 基于压缩的模型218
9.6 小结与延伸阅读220
第10章 特征223
10.1 特征的类型223
10.1.1 特征上的计算223
10.1.2 属性特征、有序特征及数量特征227
10.1.3 结构化特征228
10.2 特征变换229
10.2.1 阈值化与离散化229
10.2.2 归一化与标定234
10.2.3 特征缺失239
10.3 特征的构造与选择240
10.4 小结与延伸阅读243
第11章 模型的集成245
11.1 Bagging与随机森林246
11.2 Boosting247
11.3 集成学习进阶250
11.3.1 偏差、方差及裕量250
11.3.2 其他集成方法251
11.3.3 元学习252
11.4 小结与延伸阅读252
第12章 机器学习的实验255
12.1 度量指标的选择256
12.2 量指标的获取258
12.3 如何解释度量指标260
12.4 小结与延伸阅读264
后记 路在何方267
记忆要点269
参考文献271
《JavaScript征途》是一本学习JavaScript语言的权威书籍,在遵循语言学习的特殊规律基础上精心选材,力争做到统筹、有序,在结构
《易中天中华史:国家》内容简介:为什么文明的标志是国家?为什么世界各国的体制五花八门?从部落到国家,是历史的岔路口。世界各
為什麼愈簡單的設計反而顯得愈奢侈?大量生產的蘋果電腦,為什麼像是為個人量身訂做的?史塔克最精采的設計作品不是外星人榨汁機
多智能体系统及应用 本书特色多智能体和多智能体技术是人工智能领域活跃的研究分支。本书在2014年度“中国智能体及多智能体系统”研讨会的基础上结集而成,全书共分1...
Yes,youcanuseresponsivewebdesigntocreatehighperformance,compellingwebsites.Witht...
《搜索引擎:原理技术与系统》系统地介绍了互联网搜索引擎的工作原理、实现技术及其系统构建方案。《搜索引擎:原理技术与系统》分
《生活英语口语100主题》内容简介:互联网+时代,你最需要的英语学习书!新东方、英孚等资深外教诚恳推荐,生活英语完全收录,让你
R图形化数据分析 本书特色 本书介绍如何使用图形化的方法来分析和理解复杂的数据,该方法突出数据中重要的关联和分布趋势,并使用尽可能简单的视觉元素来呈现尽可能丰富...
《编程与类型系统》内容简介:本书全面介绍类型系统的特性,从基本类型开始,一直介绍到函数类型和子类型、OOP、泛型编程和高阶类型
《国外计算机科学教材系列•分布式计算(第2版)》涵盖了分布式计算理论的主要内容,强调不同模型之间的相似点,同时也解释了它们之
《中古社会变迁与隋唐史研究(上下册)》内容简介:本书是吴宗国先生从教六十周年纪念论文集,分上下两册。上册研究篇,汇集了历年
《菊与刀(译林人文精选)》内容简介:《菊与刀》是本尼迪克特于二战后受命于美国政府,为分析、研究日本社会和日本民族性所作的调
《经典常谈》内容简介:作者朱自清先生用浅显的语言,将代表我国传统文化的几部书,如说文、周易、尚书、诗经、三礼、春秋三传、四
SteveJobshasturnedhispersonalitytraitsintoabusinessphilosophy.Here’showhedoesit....
《新媒体创业:概念、工具、方法》内容简介:近年来,随着新媒体平台的不断涌现,新媒体创业持续升温。相较于传统创业模式,新媒体
两难境地的明智抉择 内容简介 首先要说的是我深刻感到了中国软件行业的问题严重性,也特别同情中国共享软件作者的境遇。也学很多人会认为做软件的尤其是知名软件的厂商或...
Photoshop CS5中文版标准教程:超值案例教学版 内容简介 本书全面、系统地介绍了Photoshop CS5图像处理的基本操作与应用技巧,内容包括图像处...
《网站开发案例课堂:HTML5+CSS3+JavaScript网页设计案例课堂》作者根据在长期教学中积累的网页设计教学经验,完整、详尽地介绍H
《聪明女人的口才修炼课》内容简介:在人际关系互动频繁的时代,说话技巧变得愈来愈重要。女人想要拥有好人缘,在职场和情场里无往
本书主要讲解Windows高级调试思想和工具,并涉及一些高级调试主题。本书内容主要包括:工具简介、调试器简介、调试器揭密、符号文