“如果你想学习如何用一款统计专家和数据挖掘专家所开发的免费软件包,那就选这本书吧。本书包括大量实际案例,它们充分体现了R软件的广度和深度。”
—— Bernhard Pfahringer, 新西兰怀卡托大学
本书利用大量给出必要步骤、代码和数据的具体案例,详细描述了数据挖掘的主要过程和技术,广泛涵盖数据大小、数据类型、分析目标、分析工具等方面的各种具有挑战性的问题。
本书的支持网站(http://www.liaad.up.pt/~ltorgo/DataMiningWithR/)给出了案例研究的所有代码、数据集以及R函数包。
本书特色
通过仔细选择的案例涵盖了主要的数据挖掘技术。
给出的代码和方法可以方便地复制或者改编后应用于自己的问题。
不要求读者具有R、数据挖掘或统计技术的基础知识。
包含R和MySQL基础知识的简介。
提供了对数据挖掘技术的特性、缺点和分析目标的基本理解。
出版者的话
推荐序
中文版序
译者序
前言
致谢
第1章简介
1.1如何阅读本书
1.2R简介
1.2.1R起步
1.2.2R对象
1.2.3向量
1.2.4向量化
1.2.5因子
1.2.6生成序列
1.2.7数据子集
1.2.8矩阵和数组
1.2.9列表
1.2.10数据框
1.2.11构建新函数
1.2.12对象、类和方法
1.2.13管理R会话
1.3MySQL简介
第2章预测海藻数量
2.1问题描述与目标
2.2数据说明
2.3数据加载到R
2.4数据可视化和摘要
2.5数据缺失
2.5.1将缺失部分剔除
2.5.2用最高频率值来填补缺失值
2.5.3通过变量的相关关系来填补缺失值
2.5.4通过探索案例之间的相似性来填补缺失值
2.6获取预测模型
2.6.1多元线性回归
2.6.2回归树
2.7模型的评价和选择
2.8预测7类海藻的频率
2.9小结
第3章预测股票市场收益
3.1问题描述与目标
3.2可用的数据
3.2.1在R中处理与时间有关的数据
3.2.2从CSV文件读取数据
3.2.3从网站上获取数据
3.2.4从MySQL数据库读取数据
3.3定义预测任务
3.3.1预测什么
3.3.2预测变量是什么
3.3.3预测任务
3.3.4模型评价准则
3.4预测模型
3.4.1如何应用训练集数据来建模
3.4.2建模工具
3.5从预测到实践
3.5.1如何应用预测模型
3.5.2与交易相关的评价准则
3.5.3模型集成:仿真交易
3.6模型评价和选择
3.6.1蒙特卡罗估计
3.6.2实验比较
3.6.3结果分析
3.7交易系统
3.7.1评估最终测试数据
3.7.2在线交易系统
3.8小结
第4章侦测欺诈交易
4.1问题描述与目标
4.2可用的数据
4.2.1加载数据至R
4.2.2探索数据集
4.2.3数据问题
4.3定义数据挖掘任务
4.3.1问题的不同解决方法
4.3.2评价准则
4.3.3实验方法
4.4计算离群值的排序
4.4.1无监督方法
4.4.2有监督方法
4.4.3半监督方法
4.5小结
第5章微阵列样本分类
5.1问题描述与目标
5.1.1微阵列实验背景简介
5.1.2数据集ALL
5.2可用的数据
5.3基因(特征)选择
5.3.1基于分布特征的简单过滤方法
5.3.2ANOVA过滤
5.3.3用随机森林进行过滤
5.3.4用特征聚类的组合进行过滤
5.4遗传学异常的预测
5.4.1定义预测任务
5.4.2模型评价标准
5.4.3实验过程
5.4.4建模技术
5.4.5模型比较
5.5小结
参考文献
主题索引
数据挖掘术语索引
R函数索引
《俄罗斯一本就Go(全彩珍藏版)》内容简介:随着国民收入的不断提高,出国旅游已成为了一种时尚。走出国门,放松心情,感受异域风
《魔术就这么简单》内容简介:钱币魔术,顾名思义就是围绕钱币所做出的一连串魔术表演。在奥妙神奇、五彩缤纷的魔术世界里,钱币魔
五笔打字轻松掌握 本书特色 本书是学习五笔字型打字的基础教材,书中详细地介绍了初学者必须掌握的基本知识、使用方法和操作步骤,并对初学者在使用五笔字型打字时经常碰...
EDIUS视音频制作标准教程-(第2版)-(含2DVD价格) 本书特色 本书全面讲解edius*新核心技术,精选多个行业实用案例,帮助读者在*短的时间内从“零基...
《中国古代小说中的“史传”传统及其历史变迁》内容简介:本书以“辨章学术,考镜源流”为进路,旨在研究中国古代小说的“史传”传
《MashupsWeb2.0开发技术(基于Amazon.Com)》介绍了mashup的底层技术,并且第一次展示了如何创建mashup的应用程序。Amazon.c...
《深度学习:智能时代的核心驱动力量》内容简介:全球科技巨头纷纷拥抱深度学习,自动驾驶、AI医疗、语音识别、图像识别、智能翻译
《Spark GraphX 实战》内容简介:本书是一本Spark GraphX入门书籍。前5章为基础内容,即使读者对Spark、GraphX、Scala不熟悉,...
《茶之书:识茶·懂茶·品茶》内容简介:本书以知识性随笔的方式,在介绍最具代表性的各类名茶的同时,加入了足够的关于茶道、茶文
Thewirelessindustryisinthemidstofafundamentalshiftfromprovidingvoice-onlyservice...
《文字设计的原理》内容简介:在平面设计中,文字设计的重要性无需多说。各种设计作品中都要添加文字。而文字又是信息传递的重要
《转型破局:中国十大行业数字化转型践行录》内容简介:在数字化转型过程中遇到的更大的困难则是来自缺乏对数字化转型的深刻理解,
本书由ACE的几位核心开发者撰写,快速而直接地解释了怎样充分利用ACE。从介绍ACE开始,循序渐进,详细讨论了ACE的IPC设施、进程及
《城镇化:改革的突破口》内容简介:本书从改革全局出发,着眼于实现国家治理体系和治理能力现代化的改革目标,提出以城镇化作为重
《西方文明东进战略与中国应对》内容简介:本书结合西方文明向东方国家扩散的历史与现实,深刻揭示与剖析西方文明东进战略,全书从
《网店运营与管理实务》内容简介:本书以就业为导向,以能力为本位,采用项目任务驱动的体例,每个项目以具体任务为主线展开,每个
《有一种境界叫苏东坡·3》内容简介:《有一种境界叫苏东坡·3》主要讲述了中、老年时期的苏东坡在政治、文学上的成就及其情感生活
泡沫,比如20世纪20年代和90年代的股市泡沫,是现代经济生活令人深恶痛绝的特征。美国的投资者一次又一次受到快钱、新技术和过度
《网页设计解析》不是一本普通的技法说明书,也不是一些拥有一些漂亮设计作品截图的高级画册。《网页设计解析》的写作出发点是希
数据结构算法解析 高等教材 内容简介 简介本书为严蔚敏、吴伟民编著的《数据结构(c语言版)》(清华大学出版社出版,本书将其简称为教科书)的学习辅导书。主要内容包...