“如果你想学习如何用一款统计专家和数据挖掘专家所开发的免费软件包,那就选这本书吧。本书包括大量实际案例,它们充分体现了R软件的广度和深度。”
—— Bernhard Pfahringer, 新西兰怀卡托大学
本书利用大量给出必要步骤、代码和数据的具体案例,详细描述了数据挖掘的主要过程和技术,广泛涵盖数据大小、数据类型、分析目标、分析工具等方面的各种具有挑战性的问题。
本书的支持网站(http://www.liaad.up.pt/~ltorgo/DataMiningWithR/)给出了案例研究的所有代码、数据集以及R函数包。
本书特色
通过仔细选择的案例涵盖了主要的数据挖掘技术。
给出的代码和方法可以方便地复制或者改编后应用于自己的问题。
不要求读者具有R、数据挖掘或统计技术的基础知识。
包含R和MySQL基础知识的简介。
提供了对数据挖掘技术的特性、缺点和分析目标的基本理解。
出版者的话
推荐序
中文版序
译者序
前言
致谢
第1章简介
1.1如何阅读本书
1.2R简介
1.2.1R起步
1.2.2R对象
1.2.3向量
1.2.4向量化
1.2.5因子
1.2.6生成序列
1.2.7数据子集
1.2.8矩阵和数组
1.2.9列表
1.2.10数据框
1.2.11构建新函数
1.2.12对象、类和方法
1.2.13管理R会话
1.3MySQL简介
第2章预测海藻数量
2.1问题描述与目标
2.2数据说明
2.3数据加载到R
2.4数据可视化和摘要
2.5数据缺失
2.5.1将缺失部分剔除
2.5.2用最高频率值来填补缺失值
2.5.3通过变量的相关关系来填补缺失值
2.5.4通过探索案例之间的相似性来填补缺失值
2.6获取预测模型
2.6.1多元线性回归
2.6.2回归树
2.7模型的评价和选择
2.8预测7类海藻的频率
2.9小结
第3章预测股票市场收益
3.1问题描述与目标
3.2可用的数据
3.2.1在R中处理与时间有关的数据
3.2.2从CSV文件读取数据
3.2.3从网站上获取数据
3.2.4从MySQL数据库读取数据
3.3定义预测任务
3.3.1预测什么
3.3.2预测变量是什么
3.3.3预测任务
3.3.4模型评价准则
3.4预测模型
3.4.1如何应用训练集数据来建模
3.4.2建模工具
3.5从预测到实践
3.5.1如何应用预测模型
3.5.2与交易相关的评价准则
3.5.3模型集成:仿真交易
3.6模型评价和选择
3.6.1蒙特卡罗估计
3.6.2实验比较
3.6.3结果分析
3.7交易系统
3.7.1评估最终测试数据
3.7.2在线交易系统
3.8小结
第4章侦测欺诈交易
4.1问题描述与目标
4.2可用的数据
4.2.1加载数据至R
4.2.2探索数据集
4.2.3数据问题
4.3定义数据挖掘任务
4.3.1问题的不同解决方法
4.3.2评价准则
4.3.3实验方法
4.4计算离群值的排序
4.4.1无监督方法
4.4.2有监督方法
4.4.3半监督方法
4.5小结
第5章微阵列样本分类
5.1问题描述与目标
5.1.1微阵列实验背景简介
5.1.2数据集ALL
5.2可用的数据
5.3基因(特征)选择
5.3.1基于分布特征的简单过滤方法
5.3.2ANOVA过滤
5.3.3用随机森林进行过滤
5.3.4用特征聚类的组合进行过滤
5.4遗传学异常的预测
5.4.1定义预测任务
5.4.2模型评价标准
5.4.3实验过程
5.4.4建模技术
5.4.5模型比较
5.5小结
参考文献
主题索引
数据挖掘术语索引
R函数索引
《淘宝与微店 :开店·运营·推广一册通》内容简介:超级畅销书《淘宝网开店、装修、管理、推广一册通》作者聚焦电商创业领域的又一
《淞滨漫话》内容简介:地处黄浦江和长江交汇点的宝山,是长江第一门户、浦江风景第一线,上海的“水路门户”。宝山历史悠久,文化
《推手》内容简介:王志纲二十年磨一剑的战略思路与实践,中国著名民间智库的思想和案例精华,政府及企业决策者、执行者必读!在中
《桂林饮食文化》内容简介:《桂林饮食文化》一书以其深厚的文学和历史学学术功底以及土生土长桂林人的阅历写就了一部至今为止内容
《XML基础教程:入门、DOM、Ajax与Flash》全面讲述了XML及其在Web开发领域中的作用,同时介绍了一些特定的XML词汇以及相关的XML推
《唐代文学研究年鉴(2019)》内容简介:《唐代文学研究年鉴(2019)》将2018年9月至2019年5月唐代文学研究界的基本研究情况及动态
Best-sellingauthorAndyKesslertiesupthelooseendsfromhisprovocativebook,RunningMon...
LearnhowtouseRxJavaanditsreactiveObservablestobuildfast,concurrent,andpowerfulap...
Thedigitalerapromises,asdidmanyothertechnologicaldevelopmentsbeforeit,thetransfo...
《不畏将来 不念过去2》内容简介:畅销两百万册作者十二升华之作。时隔6年十二用全新观点,告诉你如何从容面对恋爱、婚姻和原生家庭
《向服务要利润——华为客户服务中的经营哲学》内容简介:提起“为客户服务”,很多人就会简单地认为只要给予客户良好的服务体验即
《珠宝首饰设计手册》内容简介:这是一本全面介绍珠宝首饰设计的图书,特点是知识易懂、案例趣味、动手实践、发散思维。本书从学习
赞誉HackingHappinessWhyYourPersonalDataCountsandHowTrackingitCanChangetheWorld现在我们...
《漫画小白学漫画,这本就够了!(基础综合)》内容简介:一直以来,漫画都受到大众的热爱和追捧,尤其是日本漫画和美国漫画。国内
《战后日本能源安全保障研究》内容简介:战后以来日本在不同阶段都遇到了不同形式的能源约束问题,但是都未成为其经济发展的长期约
《自我革命:新时代党的建设伟大方略》内容简介:本书坚持以习近平新时代中国特色社会主义思想为指导,紧紧围绕新时代全面从严管党
《性/别、身体与故事社会学》内容简介:本书借鉴普拉莫(Plummer)的“讲述性故事”,基于多类人群(不同年龄段的城市女性、乳腺癌
本書は、オープンソースのツールキット「Arduino」を使った新しいものづくりの実践を目的とした書籍です。その中心は「距離を測る
紐約時報、BusinessWeek、Amazon#1暢銷書美國半年內銷售破百萬冊EQ之後最轟動的趨勢話題小時候我常聽爸媽說:「兒子啊,乖乖把飯
《晚安妈妈,晚安宝贝:爱听故事的小猪卡尼》内容简介:本书含26个小故事,让孩子的睡前时光温暖甜蜜,治愈孩子小小的心灵。作者充