“如果你想学习如何用一款统计专家和数据挖掘专家所开发的免费软件包,那就选这本书吧。本书包括大量实际案例,它们充分体现了R软件的广度和深度。”
—— Bernhard Pfahringer, 新西兰怀卡托大学
本书利用大量给出必要步骤、代码和数据的具体案例,详细描述了数据挖掘的主要过程和技术,广泛涵盖数据大小、数据类型、分析目标、分析工具等方面的各种具有挑战性的问题。
本书的支持网站(http://www.liaad.up.pt/~ltorgo/DataMiningWithR/)给出了案例研究的所有代码、数据集以及R函数包。
本书特色
通过仔细选择的案例涵盖了主要的数据挖掘技术。
给出的代码和方法可以方便地复制或者改编后应用于自己的问题。
不要求读者具有R、数据挖掘或统计技术的基础知识。
包含R和MySQL基础知识的简介。
提供了对数据挖掘技术的特性、缺点和分析目标的基本理解。
出版者的话
推荐序
中文版序
译者序
前言
致谢
第1章简介
1.1如何阅读本书
1.2R简介
1.2.1R起步
1.2.2R对象
1.2.3向量
1.2.4向量化
1.2.5因子
1.2.6生成序列
1.2.7数据子集
1.2.8矩阵和数组
1.2.9列表
1.2.10数据框
1.2.11构建新函数
1.2.12对象、类和方法
1.2.13管理R会话
1.3MySQL简介
第2章预测海藻数量
2.1问题描述与目标
2.2数据说明
2.3数据加载到R
2.4数据可视化和摘要
2.5数据缺失
2.5.1将缺失部分剔除
2.5.2用最高频率值来填补缺失值
2.5.3通过变量的相关关系来填补缺失值
2.5.4通过探索案例之间的相似性来填补缺失值
2.6获取预测模型
2.6.1多元线性回归
2.6.2回归树
2.7模型的评价和选择
2.8预测7类海藻的频率
2.9小结
第3章预测股票市场收益
3.1问题描述与目标
3.2可用的数据
3.2.1在R中处理与时间有关的数据
3.2.2从CSV文件读取数据
3.2.3从网站上获取数据
3.2.4从MySQL数据库读取数据
3.3定义预测任务
3.3.1预测什么
3.3.2预测变量是什么
3.3.3预测任务
3.3.4模型评价准则
3.4预测模型
3.4.1如何应用训练集数据来建模
3.4.2建模工具
3.5从预测到实践
3.5.1如何应用预测模型
3.5.2与交易相关的评价准则
3.5.3模型集成:仿真交易
3.6模型评价和选择
3.6.1蒙特卡罗估计
3.6.2实验比较
3.6.3结果分析
3.7交易系统
3.7.1评估最终测试数据
3.7.2在线交易系统
3.8小结
第4章侦测欺诈交易
4.1问题描述与目标
4.2可用的数据
4.2.1加载数据至R
4.2.2探索数据集
4.2.3数据问题
4.3定义数据挖掘任务
4.3.1问题的不同解决方法
4.3.2评价准则
4.3.3实验方法
4.4计算离群值的排序
4.4.1无监督方法
4.4.2有监督方法
4.4.3半监督方法
4.5小结
第5章微阵列样本分类
5.1问题描述与目标
5.1.1微阵列实验背景简介
5.1.2数据集ALL
5.2可用的数据
5.3基因(特征)选择
5.3.1基于分布特征的简单过滤方法
5.3.2ANOVA过滤
5.3.3用随机森林进行过滤
5.3.4用特征聚类的组合进行过滤
5.4遗传学异常的预测
5.4.1定义预测任务
5.4.2模型评价标准
5.4.3实验过程
5.4.4建模技术
5.4.5模型比较
5.5小结
参考文献
主题索引
数据挖掘术语索引
R函数索引
《沃顿管理精要:顾客中心化》内容简介:并非所有的顾客都是上帝,更不可一视同仁。虽然,我们常常会说顾客是上帝,但是并不是所有
《高等教育评论(2017年第1期 第5卷)》内容简介:本书致力于学术前沿研究,为国内外教育界同仁创造一个宽松活跃的学术空间,为推动
《西藏自助游(第5版)》内容简介:《西藏自助游》以分区导览的形式,按照拉萨、日喀则、阿里、那曲、山南、林芝、昌都区域划分,从
《CMOS集成电路后端设计与实战》内容简介:本书详细介绍整个后端设计流程,分为概述、全定制设计、半定制设计、时序分析四大部分。
《中国私募基金投资年度报告2015》内容简介:“私募股权(PE)”、“阳光私募”(即对冲基金)和“私募房地产”,是全球资产规模最大
本书由畅销书《JavainaNutshell》的作者DavidFlanagan撰写,是公认的权威JavaScript程序员指南和参考手册。JavaScript是...
《怀素自叙帖》内容简介:怀素,俗姓钱,字藏真,法名怀素,唐长沙人。善书,尤好草书。“援毫掣电,随手万变”,与张旭齐名,称“
《高效管理的四个关键环节》内容简介:《高效管理的四个关键环节/盛世新管理书架》编著者王亚锋。《高效管理的四个关键环节/盛世
《用生活常识学懂成本会计(第2版)》内容简介:成本会计烦琐、复杂、抽象,让很多学会计的人员一头雾水。本书采用通俗易懂的语言、
☆大数据领域公认权威、百万级畅销书《大数据时代》作者维克托•迈尔-舍恩伯格教授最新力作☆“终身学习”时代的必读书,开启全新
ActionScript3.0是一种功能强大的面向对象编程语言。本书分五大部分全面讲解ActionScript3.0动画。第一部分介绍了ActionScript...
《法学野渡(第四版):写给法学院新生》内容简介:本书作者以一种“传道、授业、解惑”的视角,来审视法学的学习,以“至简、实用
《软件开发的201个原则》内容简介:本书汇总了软件工程原则。原则是关于软件工程的基本原理、规则或假设,不管所选的技术、工具或语
《App+软件+游戏+网站界面设计教程》内容简介:如今,人们对各种类型的UI界面的要求越来越高,为满足广大UI设计者的需求,本书向读
深入理解LINUX内核(第三版) 内容简介 为了透彻理解Linux的工作机理,以及为何它在各种系统上能顺畅运行,你需要深入到内核的心脏。cPu与外部世界的所有交...
《摄影造型解析》内容简介:《摄影造型解析》作者董介人系南师大徐悲鸿教育奖获得者。本书作者以该校摄影专业研究生课的基础,加以
《摄影的核心:提升影像表现力的27个关键问题》内容简介:本书是一本鼓励摄影师更有自我意识、更有创造性思维的实用的摄影图书。书
解密搜索引擎技术实战:Lucene & Java精华版(第2版) 本书特色 1、《解密搜索引擎技术实战:lucene & java精华版(第2版)》是畅销书的升...
日本机器人学会日本机器人学会成立于1983年1月28日,是追求学术领域上的发展,并提供专家发表研究及交流技术的平台。学会以推广机
《精彩江苏·画派系列:常州画派》内容简介:常州画派由一批生活在江南文化古城常州的画家群体组成,恽寿平是常州画派开山鼻祖,以