“如果你想学习如何用一款统计专家和数据挖掘专家所开发的免费软件包,那就选这本书吧。本书包括大量实际案例,它们充分体现了R软件的广度和深度。”
—— Bernhard Pfahringer, 新西兰怀卡托大学
本书利用大量给出必要步骤、代码和数据的具体案例,详细描述了数据挖掘的主要过程和技术,广泛涵盖数据大小、数据类型、分析目标、分析工具等方面的各种具有挑战性的问题。
本书的支持网站(http://www.liaad.up.pt/~ltorgo/DataMiningWithR/)给出了案例研究的所有代码、数据集以及R函数包。
本书特色
通过仔细选择的案例涵盖了主要的数据挖掘技术。
给出的代码和方法可以方便地复制或者改编后应用于自己的问题。
不要求读者具有R、数据挖掘或统计技术的基础知识。
包含R和MySQL基础知识的简介。
提供了对数据挖掘技术的特性、缺点和分析目标的基本理解。
出版者的话
推荐序
中文版序
译者序
前言
致谢
第1章简介
1.1如何阅读本书
1.2R简介
1.2.1R起步
1.2.2R对象
1.2.3向量
1.2.4向量化
1.2.5因子
1.2.6生成序列
1.2.7数据子集
1.2.8矩阵和数组
1.2.9列表
1.2.10数据框
1.2.11构建新函数
1.2.12对象、类和方法
1.2.13管理R会话
1.3MySQL简介
第2章预测海藻数量
2.1问题描述与目标
2.2数据说明
2.3数据加载到R
2.4数据可视化和摘要
2.5数据缺失
2.5.1将缺失部分剔除
2.5.2用最高频率值来填补缺失值
2.5.3通过变量的相关关系来填补缺失值
2.5.4通过探索案例之间的相似性来填补缺失值
2.6获取预测模型
2.6.1多元线性回归
2.6.2回归树
2.7模型的评价和选择
2.8预测7类海藻的频率
2.9小结
第3章预测股票市场收益
3.1问题描述与目标
3.2可用的数据
3.2.1在R中处理与时间有关的数据
3.2.2从CSV文件读取数据
3.2.3从网站上获取数据
3.2.4从MySQL数据库读取数据
3.3定义预测任务
3.3.1预测什么
3.3.2预测变量是什么
3.3.3预测任务
3.3.4模型评价准则
3.4预测模型
3.4.1如何应用训练集数据来建模
3.4.2建模工具
3.5从预测到实践
3.5.1如何应用预测模型
3.5.2与交易相关的评价准则
3.5.3模型集成:仿真交易
3.6模型评价和选择
3.6.1蒙特卡罗估计
3.6.2实验比较
3.6.3结果分析
3.7交易系统
3.7.1评估最终测试数据
3.7.2在线交易系统
3.8小结
第4章侦测欺诈交易
4.1问题描述与目标
4.2可用的数据
4.2.1加载数据至R
4.2.2探索数据集
4.2.3数据问题
4.3定义数据挖掘任务
4.3.1问题的不同解决方法
4.3.2评价准则
4.3.3实验方法
4.4计算离群值的排序
4.4.1无监督方法
4.4.2有监督方法
4.4.3半监督方法
4.5小结
第5章微阵列样本分类
5.1问题描述与目标
5.1.1微阵列实验背景简介
5.1.2数据集ALL
5.2可用的数据
5.3基因(特征)选择
5.3.1基于分布特征的简单过滤方法
5.3.2ANOVA过滤
5.3.3用随机森林进行过滤
5.3.4用特征聚类的组合进行过滤
5.4遗传学异常的预测
5.4.1定义预测任务
5.4.2模型评价标准
5.4.3实验过程
5.4.4建模技术
5.4.5模型比较
5.5小结
参考文献
主题索引
数据挖掘术语索引
R函数索引
《中国传统文化》内容简介:《中国传统文化》为云南省普通高等学校“十二五”规划教材,包括“绪论”和六章内容。第一章“天:天文
《趣学Python编程》内容简介:python是一款解释型、面向对象、动态数据类型的高级程序设计语言。python语法简捷而清晰,具有丰富和
《用户运营方法论:入门、实战与进阶》内容简介:这是一部以产品和运营双重视角,从9个维度讲解用户运营思维、方法、技巧的著作。它
《Tableau数据可视化》内容简介:本书由专业的数据分析师基于Tableau 10.1精心编撰,详细介绍Tableau的数据连接、图形编辑与展示功
《赛雷三分钟漫画三国演义16》内容简介:专为新生代读者打造,比电影还好看的漫画三国演义!一看就会的知识点! 1000万人都在看的“
《ATT&CK与威胁猎杀实战》内容简介:本书主要介绍ATT&CK框架与威胁猎杀。第1部分为基础知识,帮助读者了解如何收集数据以及如何通过
《朱自清散文》内容简介:《朱自清散文》为现代散文大家朱自清散文精选集,本书稿所收入的篇目大多广为流传,包括历来都被作为白话
《新手易学——Excel 2010电子表格制作》内容简介:本书主要针对Excel 2010软件进行讲解,读者可以从零学起,逐渐掌握并精通各种操
本书是第二次世界大战末期美国科学研究发展局主任V•布什提交给总统的科学报告,回答了罗斯福总统提出的有关美国战后科学发展的四
诠释价值万亿的商业生活新事实顺势重构既有的造富大趋势★“一带一路”、亚投行、丝路基金等重磅战略无一例外地指向中国西边,全
AlcAnderson感谢家人对他写作的支持.a他觉得与Ryan合作是件幸运的事.aAl是萨利什库特奈大学的学术IT服务主任,1教授网络服务、网络
《统计自然语言处理基础:国外计算机科学教材系列》是一本全面系统地介绍统计自然语言处理技术的专著,被国内外许多所著名大学选
本书作者曾因本书荣获专业技术杂志《JavaReport》评选的优秀作者奖,细心的读者可以从网上找到许多对本书第1版的赞誉。作者以易于
本书的构思和写作是在20世纪50年代后期,那一时期曾经被人们称为喷气机时代、清洁剂时代、第二次工业革命时期,等等。在那个阶段
《明朝那些事儿增补版:第八部(新版)》内容简介:《明朝那些事儿》第八部,主要讲述了从明熹宗到崇祯皇帝近十年间的历史。天启继
《Visio2010图形设计从新手到高手》由浅入深地介绍使用MicrosoftVisio2010制作商业图形、图表和流程图的方法,详细介绍使用Visio设
数字逻辑基础与Verilog设计(原书第2版)(附光盘) 内容简介 本书系统介绍数字逻辑基本概念与实际应用。主要内容包括:逻辑电路、组合逻辑、算术运算电路、存储...
电脑迷2007下半年合订版(上、下册)(附1DVD光盘) 本书特色 《电脑谜》2007年下半年合订版,本书包含上、下两册+1DVD光盘。赠送:价值298元正版“...
大数据互联网大规模数据挖掘与分布式处理 本书特色 大数据时代的及时雨全球著名数据库技术专家*新力作理论与实际算法实现并重大数据互联网大规模数据挖掘与分布式处理 ...
《Ruby编程语言》详细介绍了Ruby1.8和1.9版本各方面的内容。在对Ruby进行了简要的综述之后,《Ruby编程语言》详细介绍了以下内容