“如果你想学习如何用一款统计专家和数据挖掘专家所开发的免费软件包,那就选这本书吧。本书包括大量实际案例,它们充分体现了R软件的广度和深度。”
—— Bernhard Pfahringer, 新西兰怀卡托大学
本书利用大量给出必要步骤、代码和数据的具体案例,详细描述了数据挖掘的主要过程和技术,广泛涵盖数据大小、数据类型、分析目标、分析工具等方面的各种具有挑战性的问题。
本书的支持网站(http://www.liaad.up.pt/~ltorgo/DataMiningWithR/)给出了案例研究的所有代码、数据集以及R函数包。
本书特色
通过仔细选择的案例涵盖了主要的数据挖掘技术。
给出的代码和方法可以方便地复制或者改编后应用于自己的问题。
不要求读者具有R、数据挖掘或统计技术的基础知识。
包含R和MySQL基础知识的简介。
提供了对数据挖掘技术的特性、缺点和分析目标的基本理解。
出版者的话
推荐序
中文版序
译者序
前言
致谢
第1章简介
1.1如何阅读本书
1.2R简介
1.2.1R起步
1.2.2R对象
1.2.3向量
1.2.4向量化
1.2.5因子
1.2.6生成序列
1.2.7数据子集
1.2.8矩阵和数组
1.2.9列表
1.2.10数据框
1.2.11构建新函数
1.2.12对象、类和方法
1.2.13管理R会话
1.3MySQL简介
第2章预测海藻数量
2.1问题描述与目标
2.2数据说明
2.3数据加载到R
2.4数据可视化和摘要
2.5数据缺失
2.5.1将缺失部分剔除
2.5.2用最高频率值来填补缺失值
2.5.3通过变量的相关关系来填补缺失值
2.5.4通过探索案例之间的相似性来填补缺失值
2.6获取预测模型
2.6.1多元线性回归
2.6.2回归树
2.7模型的评价和选择
2.8预测7类海藻的频率
2.9小结
第3章预测股票市场收益
3.1问题描述与目标
3.2可用的数据
3.2.1在R中处理与时间有关的数据
3.2.2从CSV文件读取数据
3.2.3从网站上获取数据
3.2.4从MySQL数据库读取数据
3.3定义预测任务
3.3.1预测什么
3.3.2预测变量是什么
3.3.3预测任务
3.3.4模型评价准则
3.4预测模型
3.4.1如何应用训练集数据来建模
3.4.2建模工具
3.5从预测到实践
3.5.1如何应用预测模型
3.5.2与交易相关的评价准则
3.5.3模型集成:仿真交易
3.6模型评价和选择
3.6.1蒙特卡罗估计
3.6.2实验比较
3.6.3结果分析
3.7交易系统
3.7.1评估最终测试数据
3.7.2在线交易系统
3.8小结
第4章侦测欺诈交易
4.1问题描述与目标
4.2可用的数据
4.2.1加载数据至R
4.2.2探索数据集
4.2.3数据问题
4.3定义数据挖掘任务
4.3.1问题的不同解决方法
4.3.2评价准则
4.3.3实验方法
4.4计算离群值的排序
4.4.1无监督方法
4.4.2有监督方法
4.4.3半监督方法
4.5小结
第5章微阵列样本分类
5.1问题描述与目标
5.1.1微阵列实验背景简介
5.1.2数据集ALL
5.2可用的数据
5.3基因(特征)选择
5.3.1基于分布特征的简单过滤方法
5.3.2ANOVA过滤
5.3.3用随机森林进行过滤
5.3.4用特征聚类的组合进行过滤
5.4遗传学异常的预测
5.4.1定义预测任务
5.4.2模型评价标准
5.4.3实验过程
5.4.4建模技术
5.4.5模型比较
5.5小结
参考文献
主题索引
数据挖掘术语索引
R函数索引
操作系统 内容简介 本书以UNIX操作系统为背景,介绍了操作系统的基本知识,全书包括九章内容,概述了操作系统的定义、功能、特征、发展历程、主要类型及用户界面,以...
《网络安全技术及应用实践教程(第3版)》内容简介:本书为常用网络安全基本知识和技术要点,以及同步实验与综合课程设计指导,包括
ErnestW.Adams是一名美国游戏设计顾问,现定居于英国。除顾问工作外,他还开办游戏设计研讨班,并在各种会议和大学中发表演讲,广
Thisbookaddressestheunderlyingfoundationalelements,boththeoreticalandmethodologi...
《激进意志的样式(2018年版)》内容简介:本书为“苏珊•桑塔格全集”一种,是桑塔格一本重要的文论集,是对于《反对阐释》所研究的
《《形而上学》讲演录》内容简介:2011年余纪元老师在山东大学做的一系列演讲,后经余老师的博士生整理而成。该讲演系统讲授了亚里
《Java与Android移动应用开发》内容简介:本书是一线程序员多年开发经验的结晶之作,深入浅出地讲解Android移动应用开发所需要的几
在美丽的风景背后,也有一些见不得光的阴暗角落,而这时候的科罗拉多由俨然成了助纣为虐的帮凶,只有无数的冤魂在这里游荡,其中
《Linux高级程序设计》是Linux程序设计领域的一部力作,讲解了大量程序员需要掌握的关键知识点,包括Linux开发中的基本工具、Lin
《城乡一体化发展》内容简介:这是一本全方位展现苏南地区在现代化建设中城乡一体化发展成就的重要著作。在本书作者秉持客观公正的
《图论与网络流理论》系统地阐述图论与网络流理论的基本概念、方法和定理,介绍该领域重要的问题以及典型的算法,展示图论与网络
《赶时间的人》内容简介:本书作者王计兵是一个外卖员,奔跑的行程累计15万公里,相当于沿着万里长城跑15个来回。在城市穿梭的日子
《CPU自制入门》内容简介:本书教读者制作原创的计算机系统。第1章以介绍CPU为主,同时介绍如何制作存储程序与数据的内存、输入与输
本书系统深入地介绍了各种代码优化编程技术。全书分为4章。第1章集中介绍如何确定程序中消耗CPU时钟最多的热点代码的所谓程序剖析
电子商务设计师教程 本书特色 根据人力资源和社会保障部、工业和信息化部文件,计算机技术与软件专业技术资格(水平)考试纳入全国专业技术人员职业资格证书制度的统一规...
《人工智能:知识图谱前沿技术》内容简介:知识图谱作为当前人工智能的重要方向之一,不仅被实验室的研究者,更被各行各业的商业应
微信已经成为一个独立的生态系统,带来了万众创业的全新机会,而《公众号思维》一书是作者及其团队在微信生态发展过程中大量实战
《园区网络架构与技术》内容简介:本书以园区网络所面临的业务挑战为切入点,详细介绍了智简园区网络的架构与技术,旨在向读者全面
本书主要介绍的是大规模工业化生产的技术,其中的一些技术已经非常成熟,而另外一些则刚刚被研发出来。为了使这些“模具”可以被
这是一本影响了全球数百万程序员的求职面试宝典,amazon超级畅销书,持续销售近10年,好评如潮。它授人以鱼,全面讲解程序员面试