吴信东(Xindong Wu),教授英国爱丁堡大学人工智能学博士,任美国佛蒙特大学计算机科学系主任。吴教授在数据挖掘、知识系统和Web信息开发等研究领域内颇有建树,在IEEE TKDE、TPAMI、ACMTOIS、DMKD、KAIS、IJCAI、AAAI、ICMI_、KDD、ICDM和WWW等学术会议和期刊上发表了170余篇学术论文,另外,还出版了18部学术专著和会议文集。他还获得了IEEE ICTAI-2005的最佳论文奖和IEEE ICDM-2007的最佳理论/算法论文奖亚军。
吴博士是IEEE Transactzons on KnowLedge and Data Engineering(TKDE,由IEEE Computer Society主办)的主编,IEEE International Con erence on Data Mining (ICDM)的创始人和指导委员会主席,Knowledge and In ormation Systems(KAIS,由Springer发行)的创办人和荣誉主编,IEEE Computer Society Technical Committee on Intelligent Informatics(TCII)的创始主席(2002-2006),Springer Advanced Information and Knowledge Processing (AI& KP)系列著作的编辑。他还是ICDM'03(the 2003 IEEE International Conference on Data Mining)程序委员会主席和KDD-07(the 13th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining)程序委员会联合主席。他获得了2004 ACM SIGKDD服务奖、2006 IEEE ICDM杰出服务奖,是2005年合肥科技大学“长江学者奖励计划”讲座教授。他还是很多学术会议的特邀专家/专题报告人,如NSF-NGDM'07、PAKDD-07、IEEE EDOC'06、IEEE ICTAI'04、IEEE/WIClACM WI'04lIAT'04、SEKE 2002和PADD-97等。
Vipin Kumar,教授,明尼苏达大学计算机科学与工程系William Norris讲席教授、系主任。他于1977年获得印度鲁尔基理工学院(正式名称是鲁尔基大学)的电子和通信工程学士学位,1979年获得荷兰埃因霍温飞利浦国际学院的电子工程硕士学位,1982年获得马里兰大学帕克分校的计算机科学博士学位。Kumar教授的研究兴趣主要集中在数据挖掘、生物信息学和高性能计算领域。他提出了评估并行算法可扩展性的恒等效率度量指标,并研发了多款稀疏矩阵分解(PSPASES)和图剖分(METIS,ParMctis, hMetis)的高效并行算法及软件。他发表了200多篇研究论文,合编合著了9本学术专著,包括被广泛使用的教科书Introduction to Parallel Computing和Introduction to Data Mining,者5由Addison-Wesley出版。Kumar是众数据挖掘和多并行计算领域的学术会议、专题研讨会的主席或共同主席,女口IEEE International Con ference on Data Mining(2002)、International Parallel and Distributed Processing Symposium(2001)和SIAM International Con ference on Data Mining(2001).Kumar是SIAM International Conference on Data Mining指导委员会共同主席,IEEE International Conference on Data Mining和IEEE International Conference on Bioinformatics and Biomedicine指导委员会委员。Kumar是Journal of Statistical Analysis and Data Mining的创始主编之——,IEEE Intelligent In ormatics Bulletin主编和Data Mining and Knowledge Discovery系列图书(由CRC Press/Chapman Hall出版)的编辑。Kumar还担任很多其他学术刊物的编辑,如Data Mining and Kno-wledge Discovery、KnowLedge and Information Systems、IEEE Computational Inteltigence Bulletin、Annual Review of Inteltigent In formatics、Parallel Com puting、Journal of Parallel and Distributed Computing、IEEE Transactions of Data and Kno-wledge Engineering(1993-1997)、IEEE Concurrency(1997-2000)和IEEE ParalleL and Distributed Technology(1995-1997)等。他是ACM会士、IEEE会士、AAAS会士和SIAM会员。Kumar由于在并行算法设计、图剖分和数据挖掘领域的杰出贡献,获得了2005 IEEE Computer Society的技术成就奖。
第1章C4.5 1
1.1引言2
1.2算法描述3
1.3算法特性6
1.3.1决策树剪枝6
1.3.2连续型属性8
1.3.3缺失值处理8
1.3.4规则集诱导9
1.4软件实现10
1.5示例10
1.5.1 Golf数据集10
1.5.2 Soybean数据集11
1.6高级主题11
1.6.1二级存储12
1.6.2斜决策树12
1.6.3特征选择12
1.6.4集成方法12
1.6.5分类规则13
1.6.6模型重述13
1.7习题14
参考文献15
第2章k-means18
2.1引言19
2.2算法描述19
2.3可用软件22
2.4示例23
2.5高级主题27
2.6小结28
2.7习题28
参考文献29
第3章SVM: 支持向量机31
3.1支持向量分类器32
3.2支持向量分类器的软间隔优化34
3.3核技巧35
3.4理论基础38
3.5支持向量回归器40
3.6软件实现41
3.7当前和未来的研究41
3.7.1计算效率41
3.7.2核的选择41
3.7.3泛化分析42
3.7.4结构化支持向量机的学习42
3.8习题43
参考文献44
第4章Apriori47
4.1引言48
4.2算法描述48
4.2.1挖掘频繁模式和关联规则48
4.2.2挖掘序列模式52
4.2.3讨论53
4.3软件实现54
4.4示例55
4.4.1可行示例55
4.4.2性能评估60
4.5高级主题61
4.5.1改进Apriori类型的频繁模式挖掘61
4.5.2无候选的频繁模式挖掘62
4.5.3增量式方法63
4.5.4稠密表示: 闭合模式和最大模式63
4.5.5量化的关联规则64
4.5.6其他的重要性/兴趣度度量方法65
4.5.7类别关联规则66
4.5.8使用更丰富的形式: 序列、树和图66
4.6小结67
4.7习题67
参考文献68
第5章EM72
5.1引言73
5.2算法描述74
5.3软件实现74
5.4示例75
5.4.1例5.1: 多元正态混合75
5.4.2例5.2: 混合因子分析78
5.5高级主题80
5.6习题81
参考文献87
第6章PageRank90
6.1引言91
6.2算法描述92
6.3一个扩展: Timed-PageRank95
6.4小结96
6.5习题96
参考文献97
第7章AdaBoost98
7.1引言99
7.2算法描述99
7.2.1符号定义99
7.2.2通用推举过程100
7.2.3AdaBoost算法101
7.3示例103
7.3.1异或问题求解103
7.3.2真实数据上的性能104
7.4实际应用105
7.5高级主题107
7.5.1理论问题107
7.5.2多类别AdaBoost110
7.5.3其他高级主题111
7.6软件实现111
7.7习题112
参考文献113
第8章kNN: k-最近邻115
8.1引言116
8.2算法描述116
8.2.1宏观描述116
8.2.2若干议题117
8.2.3软件实现118
8.3示例118
8.4高级主题120
8.5习题121
致谢121
参考文献122
第9章Naive Bayes124
9.1引言125
9.2算法描述125
9.3独立给力127
9.4模型扩展128
9.5软件实现130
9.6示例130
9.6.1例1130
9.6.2例2132
9.7高级主题133
9.8习题133
参考文献134
第10章CART: 分类和回归树136
10.1前身137
10.2概述138
10.3示例138
10.4算法描述140
10.5分裂准则141
10.6先验概率和类别均衡142
10.7缺失值的处理144
10.8属性的重要度145
10.9动态特征构造146
10.10代价敏感学习147
10.11停止准则、剪枝、树序列和树选择147
10.12概率树149
10.13理论基础150
10.14 CART之后的相关研究150
10.15可用软件151
10.16习题152
参考文献153
《胡须爷爷讲《论语》》内容简介:丫丫是一个可爱的8岁女孩,她喜欢新奇有趣的事物,但面对艰辛的学习,存在畏难情绪。在生日会上,
《寻找语文王国(基础知识篇)》内容简介:爱听故事是孩子的天性。《寻找语文王国》以“万里路”和“万卷书”兄妹俩寻找“语文王国
《实用语义网RDFS与OWL高效建模(英文版)》是语义网的入门教程,详细讲述语义网的核心内容的语言,包括语义网的概念、语义建模等。
《秦腔与丝路文化》内容简介:秦腔流传西北大地,展现西部风情,其传播区域叠加于古老的丝绸之路之上,融汇东西文化充分交融的因子
《MATLAB神经网络编程》结合神经网络的概念、理论和应用,以MATLAB为平台,系统地介绍了神经网络工具箱中的前向型神经网络、局部
《万物大历史·科学和技术是怎么发展而来的》内容简介:"大历史”概念由美国知名历史学家大卫·克里斯蒂安提出,后经比尔·盖茨大力
如果你可以编写出合格的代码,但是想更进一步、创作出组织良好而且易于理解的代码,并希望成为一名真正的编程专家或提高现有的职
设计与生存 内容简介 一种设计,无论原理上多么先进,如果缺乏量产的可能,对于企业或产业的意义恐怕很有局限。经过20年市场换技术的尝试,我们发现自己在技术上处于一...
《李致文存·我的书信》内容简介:《李致文存》第五卷,则收录了李致与巴金的诸多书信,还有曹禺、张爱萍、李又兰、戈宝权、冯骥才
Perl语言编程-(上下册)-第四版-影印版 本书特色 div>Perl语言编程-(上下册)-第四版-影印版 内容简介 本书有哪些新的内容呢?老实说几...
本书意在用这些最优秀的软件开发类文章来激励程序员们编写出更优秀的软件。我的目的很简单,就是好好编写软件。编程工作充满魅力
《嫦娥奔月》内容简介:传说嫦娥本是后羿之妻,后羿射下9个太阳后西王母赐其不老仙药。后羿门徒蓬蒙欺骗后羿,后羿受骗欺负嫦娥,嫦
TheIntel®64andIA-32ArchitecturesSoftwareDeveloper’sManual,Volume1:BasicArchitect...
《迎接互联网的明天-玩转3DWeb(附盘)》,全书共5章,第1章主要阐述了国内外空前繁荣的3D互联网技术领域,以及这些领域透射出来的
《思维迷宫(爱智书系)》内容简介:哲学不仅帮助人认识世界、认识自我,还能够认识我们的“认识”,看看我们是怎样思维的,我们的
数字摄影教程 本书特色 《新世纪高等学校摄影及相关专业通用教材:数字摄影教程》作者将与青年学生们一起共同讨论数字摄影的基本知识,并探索数字摄影的奥秘。《新世纪高...
《人人都来掷骰子:日常生活中的概率与统计》内容简介:概率和统计以各种各样的方式影响着普通百姓的生活——正如《人人都来掷骰子
《晚礼新娘化妆与造型实例教程》内容简介:本书是一本晚礼新娘化妆与造型的实用教程,内容分为自然风格、靓丽风格、复古风格、浪漫
本书是有关WebService讨论最详尽的书籍之一。全书涵盖了构建面向服务的体系结构所涉及的方方面面,包括一整套概念体系、原理、支
《老"码"识途:从机器码到框架的系统观逆向修炼之路》以逆向反汇编为线索,自底向上,从探索者的角度,原生态地刻画了对系统机制的