“如果你想学习如何用一款统计专家和数据挖掘专家所开发的免费软件包,那就选这本书吧。本书包括大量实际案例,它们充分体现了R软件的广度和深度。”
—— Bernhard Pfahringer, 新西兰怀卡托大学
本书利用大量给出必要步骤、代码和数据的具体案例,详细描述了数据挖掘的主要过程和技术,广泛涵盖数据大小、数据类型、分析目标、分析工具等方面的各种具有挑战性的问题。
本书的支持网站(http://www.liaad.up.pt/~ltorgo/DataMiningWithR/)给出了案例研究的所有代码、数据集以及R函数包。
本书特色
通过仔细选择的案例涵盖了主要的数据挖掘技术。
给出的代码和方法可以方便地复制或者改编后应用于自己的问题。
不要求读者具有R、数据挖掘或统计技术的基础知识。
包含R和MySQL基础知识的简介。
提供了对数据挖掘技术的特性、缺点和分析目标的基本理解。
出版者的话
推荐序
中文版序
译者序
前言
致谢
第1章简介
1.1如何阅读本书
1.2R简介
1.2.1R起步
1.2.2R对象
1.2.3向量
1.2.4向量化
1.2.5因子
1.2.6生成序列
1.2.7数据子集
1.2.8矩阵和数组
1.2.9列表
1.2.10数据框
1.2.11构建新函数
1.2.12对象、类和方法
1.2.13管理R会话
1.3MySQL简介
第2章预测海藻数量
2.1问题描述与目标
2.2数据说明
2.3数据加载到R
2.4数据可视化和摘要
2.5数据缺失
2.5.1将缺失部分剔除
2.5.2用最高频率值来填补缺失值
2.5.3通过变量的相关关系来填补缺失值
2.5.4通过探索案例之间的相似性来填补缺失值
2.6获取预测模型
2.6.1多元线性回归
2.6.2回归树
2.7模型的评价和选择
2.8预测7类海藻的频率
2.9小结
第3章预测股票市场收益
3.1问题描述与目标
3.2可用的数据
3.2.1在R中处理与时间有关的数据
3.2.2从CSV文件读取数据
3.2.3从网站上获取数据
3.2.4从MySQL数据库读取数据
3.3定义预测任务
3.3.1预测什么
3.3.2预测变量是什么
3.3.3预测任务
3.3.4模型评价准则
3.4预测模型
3.4.1如何应用训练集数据来建模
3.4.2建模工具
3.5从预测到实践
3.5.1如何应用预测模型
3.5.2与交易相关的评价准则
3.5.3模型集成:仿真交易
3.6模型评价和选择
3.6.1蒙特卡罗估计
3.6.2实验比较
3.6.3结果分析
3.7交易系统
3.7.1评估最终测试数据
3.7.2在线交易系统
3.8小结
第4章侦测欺诈交易
4.1问题描述与目标
4.2可用的数据
4.2.1加载数据至R
4.2.2探索数据集
4.2.3数据问题
4.3定义数据挖掘任务
4.3.1问题的不同解决方法
4.3.2评价准则
4.3.3实验方法
4.4计算离群值的排序
4.4.1无监督方法
4.4.2有监督方法
4.4.3半监督方法
4.5小结
第5章微阵列样本分类
5.1问题描述与目标
5.1.1微阵列实验背景简介
5.1.2数据集ALL
5.2可用的数据
5.3基因(特征)选择
5.3.1基于分布特征的简单过滤方法
5.3.2ANOVA过滤
5.3.3用随机森林进行过滤
5.3.4用特征聚类的组合进行过滤
5.4遗传学异常的预测
5.4.1定义预测任务
5.4.2模型评价标准
5.4.3实验过程
5.4.4建模技术
5.4.5模型比较
5.5小结
参考文献
主题索引
数据挖掘术语索引
R函数索引
Personasplayanessentialroleinthedevelopmentofsuccessfulproducts.Withoutcreatingp...
《CleanCode(评注版)》提出一种观念:代码质量与其整洁度成正比。干净的代码,既在质量上较为可靠,也为后期维护、升级奠定了良好
SolidWorks产品造型设计实战精解-(含1DVD) 本书特色 邢启恩主编的《SolidWorks产品造型设计实战精解》详细说明了扫描和放样的高级应用选项、...
《软件之美》内容简介:行走在红尘里,每个人都会遇见暴风骤雨和诗情画意。“忧者见之而忧,喜者见之而喜”。一路上,我们会听见花
《超级科学家:人工智能》内容简介:“超级科学家”系列是一套专门为7-12岁儿童量身打造的儿童科普书,通俗易懂是这套书的最大特色
.NETFramework的出现给编程带来了极大的改变,图形编程也同样受到了巨大的影响。微软在.NET中把GDI升级为GDI+,它包含了许多命名
《中国法制史》内容简介:中国法制史是研究中国法制发生、发展、演变及其规律的学科。它是中国制度史的一部分,是法学体系中的独立
《中国木帆船》内容简介:在本书中,何国卫教授将几十年来研究中国古船史的思考与心得进行了系统地整理与总结,是国内首次专门就中
Readytoexploretheglamourousworldofwirelesssensornetworking?Createdistributedsens...
《算法精粹》内容简介:本书是一本面向中高级程序员的算法教程,借助Python语言,用经典的算法、编码技术和原理来求解计算机科学的
《心理学与九型人格》内容简介:追求尽善尽美的完美型、古道热肠的奉献型、脚踏实地的实干型、充满艺术气息的浪漫型、头脑冷静的观
Itsundeniable—technologyischangingthewaywethink.Butisitforthebetter?Amidachoruso...
《电商战略》内容简介:要么被趋势打败,要么顺势而为。在互联网+时代,传统企业转型互联网是大势所趋。本书是传统企业及时代下的个
《淘宝网店深度SEO优化技术揭秘:网店流量高效转化》内容简介:淘宝搜索流量,尤其是自然搜索流量是一块大蛋糕!但是淘宝的搜索规则
《SAS金融数据挖掘与建模》内容简介:本书是一本介绍金融企业数据建模的专著。在内容上,书中以信贷(信用卡)客户的生命周期管理为
《FPGA Verilog开发实战指南:基于Inter Cyclone IV(进阶篇)》内容简介:在《FPGA Verilog开发实战指南:基于Intel Cy...
《世界经典口琴小品111首》内容简介:口琴,是人们喜闻乐见的一件乐器,拥有广泛的群众基础。然而在乐谱市场中,高质量的口琴乐谱极
《文化南京》内容简介:本书拟从时间、空间和文化三个层面对南京进行深度解读,集中展示南京历史文化形象,总结南京历史文明的发展
Ittakesmorethanjustadesignschooleducationandakillerportfoliotosucceedinacreative...
内容提要为加快我国电信发展的现代化步伐,必须尽可能采用高新电信技术和设备。与传统的PDH网相比,SDH网能更好地满足电信网朝着