“如果你想学习如何用一款统计专家和数据挖掘专家所开发的免费软件包,那就选这本书吧。本书包括大量实际案例,它们充分体现了R软件的广度和深度。”
—— Bernhard Pfahringer, 新西兰怀卡托大学
本书利用大量给出必要步骤、代码和数据的具体案例,详细描述了数据挖掘的主要过程和技术,广泛涵盖数据大小、数据类型、分析目标、分析工具等方面的各种具有挑战性的问题。
本书的支持网站(http://www.liaad.up.pt/~ltorgo/DataMiningWithR/)给出了案例研究的所有代码、数据集以及R函数包。
本书特色
通过仔细选择的案例涵盖了主要的数据挖掘技术。
给出的代码和方法可以方便地复制或者改编后应用于自己的问题。
不要求读者具有R、数据挖掘或统计技术的基础知识。
包含R和MySQL基础知识的简介。
提供了对数据挖掘技术的特性、缺点和分析目标的基本理解。
出版者的话
推荐序
中文版序
译者序
前言
致谢
第1章简介
1.1如何阅读本书
1.2R简介
1.2.1R起步
1.2.2R对象
1.2.3向量
1.2.4向量化
1.2.5因子
1.2.6生成序列
1.2.7数据子集
1.2.8矩阵和数组
1.2.9列表
1.2.10数据框
1.2.11构建新函数
1.2.12对象、类和方法
1.2.13管理R会话
1.3MySQL简介
第2章预测海藻数量
2.1问题描述与目标
2.2数据说明
2.3数据加载到R
2.4数据可视化和摘要
2.5数据缺失
2.5.1将缺失部分剔除
2.5.2用最高频率值来填补缺失值
2.5.3通过变量的相关关系来填补缺失值
2.5.4通过探索案例之间的相似性来填补缺失值
2.6获取预测模型
2.6.1多元线性回归
2.6.2回归树
2.7模型的评价和选择
2.8预测7类海藻的频率
2.9小结
第3章预测股票市场收益
3.1问题描述与目标
3.2可用的数据
3.2.1在R中处理与时间有关的数据
3.2.2从CSV文件读取数据
3.2.3从网站上获取数据
3.2.4从MySQL数据库读取数据
3.3定义预测任务
3.3.1预测什么
3.3.2预测变量是什么
3.3.3预测任务
3.3.4模型评价准则
3.4预测模型
3.4.1如何应用训练集数据来建模
3.4.2建模工具
3.5从预测到实践
3.5.1如何应用预测模型
3.5.2与交易相关的评价准则
3.5.3模型集成:仿真交易
3.6模型评价和选择
3.6.1蒙特卡罗估计
3.6.2实验比较
3.6.3结果分析
3.7交易系统
3.7.1评估最终测试数据
3.7.2在线交易系统
3.8小结
第4章侦测欺诈交易
4.1问题描述与目标
4.2可用的数据
4.2.1加载数据至R
4.2.2探索数据集
4.2.3数据问题
4.3定义数据挖掘任务
4.3.1问题的不同解决方法
4.3.2评价准则
4.3.3实验方法
4.4计算离群值的排序
4.4.1无监督方法
4.4.2有监督方法
4.4.3半监督方法
4.5小结
第5章微阵列样本分类
5.1问题描述与目标
5.1.1微阵列实验背景简介
5.1.2数据集ALL
5.2可用的数据
5.3基因(特征)选择
5.3.1基于分布特征的简单过滤方法
5.3.2ANOVA过滤
5.3.3用随机森林进行过滤
5.3.4用特征聚类的组合进行过滤
5.4遗传学异常的预测
5.4.1定义预测任务
5.4.2模型评价标准
5.4.3实验过程
5.4.4建模技术
5.4.5模型比较
5.5小结
参考文献
主题索引
数据挖掘术语索引
R函数索引
BookDescriptionReusablecomponentsandpatternsforAjax-drivenapplicationsAjaxisoneo...
《幸福教育从心开始:中国人民大学幼儿园园本课程》内容简介:本书分五章内容:围绕鸟、风车、运动会、中医课和快乐餐厅几个主题,
《绅权与国家权力关系研究:从明清到民初》内容简介:从乡村权力结构角度研究绅权与国家权力的关系,这不仅是一个法律史学问题,同
《期货短线:量价分析与多空技巧》内容简介:本书讲解了上百个实例,侧重于介绍期货短线的交易技术,系统地讲解了做期货短线交易应
《Excel 2010办公应用实战从入门到精通(超值版)》内容简介:《Excel 2010办公应用实战从入门到精通(超值版)》通过精选案例引导
Inlively,mordantlywittyprose,Negropontedecodesthemysteries--anddebunksthehype--s...
《UML参考手册》在第1版的基础上进行了重大更新和扩展。UML的创建者JamesRumbaugh、IvarJacobson和GradyBooch,清晰完整地讲述...
叶伟,阿里软件研发中心总监.曾先后就职于金仕达卫宁.IBM.金蝶,在HIS.ERP.SaaS领域领导开发了多个大型成功产品.复旦大学计算机科学
本书是Struts项目的完全指南,引导开发人员理解概念、设计和实现方式。虽然它由Struts应用程序的基础开始并深入讲解了Model2设计
《单读14:世界的水手》内容简介:本辑专题围绕“世界的水手”主题,邀请五位当代澳大利亚作者亮相,组成澳大利亚文学特辑,他们包
《富起来 强起来:改革开放40年》内容简介:今年是改革开放40周年,中共中央决定举行隆重纪念活动,本书作为向改革开放40周年献礼图
该书是Wrox红皮书中的畅销品种,从初版、1.0版、1.1版到目前的2.0版,已经3次升级,不仅内容更加完善、实用,还展现了.NET2.0的最
《不插电的计算机科学》主要内容简介:“ComputerSciericeUnplugged”(不插电的计算机科学)是面向世界范围的信息科学普及项目,
一本给初学者的HTML+CSS入门书籍作者简介 IanLloydistheauthororco-authorofanumberofwebdevelopmentb...
《知堂乙酉》内容简介:《知堂乙酉文编》收入周作人文章十八篇(包括题记),多作于四十年代末。其中有知堂一向喜谈的历史、风俗、
《BLOG启示录:WordPress博客建设与经营》分三大部分,共17章。第一部分(1~5章)主要是介绍Web2.0、博客,以及LAMP的安装和架设,
数据清洗是数据挖掘与分析过程中不可缺少的一个环节,但因为数据类型极其复杂,传统的清洗脏数据工作单调乏味且异常辛苦。如果能
《发明改变生活》内容简介:在璀璨的人类文明中,各式各样的发明层出不穷,为我们的生活带来了日新月异的变化。那发明是如何改变生
《人人都能学会的刷屏文案写作技巧》内容简介:“后来的我们,为了谁四处迁徙,为了谁回归故里?”真奇怪,这些字每一个都认识,每
《特战装备大百科(图鉴版)》内容简介:《现代兵器百科图鉴系列:特战装备大百科(图鉴版)》精选了百余种现代特种部队经典作战装