本书是一本机器学习入门教程,包含了数学和统计学的核心技术,用于帮助理解一些常用的机器学习算法。书中展示的算法涵盖了机器学习的各个重要领域:分类、聚类和投影。本书对一小部分算法进行了详细描述和推导,而不是简单地将大量算法罗列出来。
本书通过大量的MATLAB/Octave脚本将算法和概念由抽象的等式转化为解决实际问题的工具,利用它们读者可以重新绘制书中的插图,并研究如何改变模型说明和参数取值。
本书特色
介绍机器学习技术及应用的主要算法和思想。
为读者进一步探索机器学习领域中的特定方向提供起点。
不需要太多的数学知识,穿插在文中的注解框提供相应的数学解释。
每章末均包含练习。
出版者的话
译者序
前言
第1章 线性建模:最小二乘法1
1.1 线性建模1
1.1.1 定义模型2
1.1.2 模型假设2
1.1.3 定义什么是好的模型3
1.1.4 最小二乘解:一个有效的例子4
1.1.5 有效的例子7
1.1.6 奥运会数据的最小二乘拟合8
1.1.7 小结9
1.2 预测9
1.2.1 第二个奥运会数据集10
1.2.2 小结12
1.3 向量/矩阵符号12
1.3.1 例子17
1.3.2 数值的例子18
1.3.3 预测19
1.3.4 小结19
1.4 线性模型的非线性响应19
1.5 泛化与过拟合22
1.5.1 验证数据22
1.5.2 交叉验证23
1.5.3 K折交叉验证的计算缩放25
1.6 正则化最小二乘法25
1.7 练习27
其他阅读材料28
第2章 线性建模:最大似然方法29
2.1 误差作为噪声29
2.2 随机变量和概率30
2.2.1 随机变量30
2.2.2 概率和概率分布31
2.2.3 概率的加法32
2.2.4 条件概率32
2.2.5 联合概率33
2.2.6 边缘化34
2.2.7 贝叶斯规则介绍36
2.2.8 期望值37
2.3 常见的离散分布39
2.3.1 伯努利分布39
2.3.2 二项分布39
2.3.3 多项分布40
2.4 连续型随机变量——概率密度函数40
2.5 常见的连续概率密度函数42
2.5.1 均匀密度函数42
2.5.2 β密度函数43
2.5.3 高斯密度函数44
2.5.4 多元高斯44
2.5.5 小结46
2.6 产生式的考虑(续)46
2.7 似然估计47
2.7.1 数据集的似然值48
2.7.2 最大似然49
2.7.3 最大似然解的特点50
2.7.4 最大似然法适用于复杂模型52
2.8 偏差方差平衡问题53
2.9 噪声对参数估计的影响53
2.9.1 参数估计的不确定性54
2.9.2 与实验数据比较57
2.9.3 模型参数的变异性——奥运会数据58
2.10 预测值的变异性59
2.10.1 预测值的变异性——一个例子59
2.10.2 估计值的期望值61
2.10.3 小结63
2.11 练习63
其他阅读材料64
第3章 机器学习的贝叶斯方法66
3.1 硬币游戏66
3.1.1 计算正面朝上的次数67
3.1.2 贝叶斯方法67
3.2 精确的后验70
3.3 三个场景71
3.3.1 没有先验知识71
3.3.2 公平的投币76
3.3.3 有偏的投币78
3.3.4 三个场景——总结80
3.3.5 增加更多的数据80
3.4 边缘似然估计80
3.5 超参数82
3.6 图模型83
3.7 奥运会100米数据的贝叶斯处理实例84
3.7.1 模型84
3.7.2 似然估计85
3.7.3 先验概率85
3.7.4 后验概率85
3.7.5 1阶多项式87
3.7.6 预测89
3.8 边缘似然估计用于多项式模型阶的选择90
3.9 小结91
3.10 练习91
其他阅读材料92
第4章 贝叶斯推理94
4.1 非共轭模型94
4.2 二值响应94
4.3 点估计:最大后验估计方案96
4.4 拉普拉斯近似100
4.4.1 拉普拉斯近似实例:近似γ密度101
4.4.2 二值响应模型的拉普拉斯近似102
4.5 抽样技术103
4.5.1 玩飞镖游戏104
4.5.2 Metropolis-Hastings算法105
4.5.3 抽样的艺术110
4.6 小结111
4.7 练习111
其他阅读材料111
第5章 分类113
5.1 一般问题113
5.2 概率分类器113
5.2.1 贝叶斯分类器114
5.2.2 逻辑回归121
5.3 非概率分类器123
5.3.1 K近邻算法123
5.3.2 支持向量机和其他核方法…125
5.3.3 小结132
5.4 评价分类器的性能133
5.4.1 准确率——0/1损失133
5.4.2 敏感性和特异性133
5.4.3 ROC曲线下的区域134
5.4.4 混淆矩阵135
5.5 判别式和产生式分类器136
5.6 小结136
5.7 练习136
其他阅读材料137
第6章 聚类分析138
6.1 一般问题138
6.2 K均值聚类139
6.2.1 聚类数目的选择141
6.2.2 K均值的不足之处141
6.2.3 核化K均值141
6.2.4 小结144
6.3 混合模型144
6.3.1 生成过程144
6.3.2 混合模型似然函数146
6.3.3 EM算法146
6.3.4 例子151
6.3.5 EM寻找局部最优153
6.3.6 组分数目的选择153
6.3.7 混合组分的其他形式154
6.3.8 用EM估计MAP156
6.3.9 贝叶斯混合模型157
6.4 小结157
6.5 练习157
其他阅读材料158
第7章 主成分分析与隐变量模型159
7.1 一般问题159
7.2 主成分分析161
7.2.1 选择D164
7.2.2 PCA的局限性165
7.3 隐变量模型165
7.3.1 隐变量模型中的混合模型165
7.3.2 小结166
7.4 变分贝叶斯166
7.4.1 选择Q(θ)167
7.4.2 优化边界168
7.5 PCA的概率模型168
7.5.1 Qτ(τ)169
7.5.2 Qxn(xn)170
7.5.3 Qwn(wm)171
7.5.4 期望值要求171
7.5.5 算法172
7.5.6 例子173
7.6 缺失值174
7.6.1 缺失值作为隐变量176
7.6.2 预测缺失值176
7.7 非实值数据177
7.7.1 概率PPCA177
7.7.2 议会数据可视化180
7.8 小结184
7.9 练习184
其他阅读材料184
词汇表185
索引188
《SQL解惑(第2版)》中收集了75个与SQL编程相关的有趣问题,涉及数据库应用的许多方面,如财务、投资、旅游、销售、计算等,不一而
本书是“当代最了不起的科学家作家”卡斯蒂讲述仿真学的力作。作为正在引发科学革命的计算机仿真,不是基于直接观察实验,而是基
游戏透视 本书特色 《游戏透视(动漫游戏专业系列教材)》由浅入深、详细地讲述了绘画透视的基本概念以及不同的绘画透视种类,从动漫与游戏制作的流程出发,配合大量精美...
《蔡襄墨迹》内容简介:蔡襄(一〇一二—一〇六七),字君谟,兴化仙游(今福建仙游)人。北宋名臣,书法家、文学家、茶学家。蔡襄
★国内第1本基于Web标准的CSS布局著作技术增值升级版!★讲述基于Web标准的应用CSS进行网站布局设计与重构的典范之作! [本书特色
《直播修炼手册》内容简介:《直播修炼手册:主播IP打造+营销运营+商业变现》是一本直播修炼宝典,从主播的IP打造到营销推广、整体
本书帮助你解决API设计方面的问题,共分3个部分,分别指出学习API设计是需要进行科学的训练的、Java语言在设计方面的理论及设计和
Theinterplaybetweenoptimizationandmachinelearningisoneofthemostimportantdevelopm...
本书囊括了游戏设计的整个流程,剧情、设计文档、游戏策略及玩法等内容,在剧情的创意指导以及游戏设计文档上面,虽然用墨不多,
《大河两岸》内容简介:在肯尼亚一条大河的两岸各有一座村子。主人公瓦伊亚吉的父亲是氏族里的先知,预见到白人即将得势,便把他送
《学好电工技术500个问与答》内容简介:本书答共14章,分别是电工常用元器件,变电与配电装置,动力用电设备与控制,机床电路,照明
Excel VBA实用教程 本书特色 胡建华、楼吉林主编的《excel vba实用教程(高等院校计算机技术与应用系列规划教材)》共分为八章,主要内容包括vba概...
《鬼刀2:WLOP个人插画作品集(珍藏版)》内容简介:本书为知名插画师WLOP的第二本个人作品集。与2018年出版的第一本作品集相比,本
《程序与民主》是意大利著名政治学家、法学家皮罗·克拉玛德雷(Pierocalamandrei)(1889-1956)讨论现代诉讼程序的著作。该书篇
本书全面而深入地介绍了GNU/Linux编程。首先介绍了在Linux上编程必备的编程工具,然后在库函数、系统调用以及内核上阐述Linux编程
《汉字的故事(中华文化故事)》内容简介:《汉字的故事》以生动活泼的笔调介绍了汉字的创制演变与造字方法,并精选出133个与日常生
《明代文学思想史(全二册)》内容简介:《明代文学思想史》是对整个明代的文学思想进行系统阐述的专著。明代是一个文学思想相当活
MatthewcWilson是一名软件开发顾问,STLSoft库的创建者,他为双月刊C/C++UserscJournal撰写关于将C/C++与其他语言和技术进行...
Whenyoureunderpressuretoproduceawelldesigned,easy-to-navigatemobileapp,theresnot...
Delphi程序设计基础与应用 本书特色 本书内容翔实,并采用边讲解边动手操作的教学方式,结合丰富的程序实例,学习轻松、上手容易,并在各章末尾均附有对应本章知识...