资深数据专家凝炼数十年教学和实践经验,全面阐释如何使用R的20%功能完成80%的现代数据工作。
本书是资深数据专家数十年教学与实践经验的结晶,以简单直接的方式详细讲解R语言的所有基础知识,以及常见统计方法和模型在R中的操作规范,通过大量实例,帮助读者快速理解并掌握R的核心功能,有效解决实际工作问题。
本书共24章,第1~3章介绍R语言的获取与安装、R环境的设置以及R包的基础知识;第4~5章介绍R语言基础知识和高级数据结构,涉及数学运算、向量、调用函数以及数据框、列表、矩阵和数组等;第6章介绍如何导入数据;第7章详细介绍统计图形的绘制,包括基本绘图和ggplot2;第8~10章介绍R函数编写,包括对结构、参数和返回规则的讨论,讲解if和ifelse以及复杂语句控制程序的流程、for和while循环迭代等;第11~13章介绍数据的分组操作、数据整理和字符串操作;第14~15章介绍概率分布与描述性统计;第16~20章介绍线性模型、广义线性模型、模型诊断、正则化与压缩以及非线性模型等;第21章介绍时间序列和自相关;第22章介绍各种聚类方式,包括K-means和分层聚类;第23章讨论可重复性、报告和利用knitr滑动展示;第24介绍如何创建R包。
译者序
序言
前言
致谢
第1章 获取R 1
1.1 下载R 1
1.2 R版本 2
1.3 32位与64位 2
1.4 安装 2
1.5 R的社区版革命 8
1.6 小结 9
第2章 R环境 10
2.1 命令行界面 11
2.2 RStudio 12
2.3 Revolution Analytics RPE 20
2.4 小结 20
第3章 R包 21
3.1 包的安装 21
3.2 包的加载 23
3.3 创建一个包 24
3.4 小结 24
第4章 R语言基础 25
4.1 基本数学运算 25
4.2 变量 26
4.3 数据类型 28
4.4 向量 33
4.5 调用函数 37
4.6 函数文件 38
4.7 缺失数据 38
4.8 小结 39
第5章 高级数据结构 40
5.1 数据框 40
5.2 列表 47
5.3 矩阵 52
5.4 数组 54
5.5 小结 55
第6章 导入数据 56
6.1 导入CSV 56
6.2 导入Excel数据 57
6.3 读入数据库数据 58
6.4 导入其他统计工具数据 59
6.5 R二进制文件 60
6.6 包含在R中的数据 62
6.7 从互联网上抓取数据 62
6.8 小结 63
第7章 统计图形 64
7.1 基本图形 64
7.2 ggplot2 66
7.3 小结 78
第8章 编写R函数 79
8.1 hello world! 79
8.2 函数参数 80
8.3 返回值 82
8.4 do.call 83
8.5 小结 84
第9章 控制语句 85
9.1 if和else语句 85
9.2 switch语句 88
9.3 ifelse语句 89
9.4 复合检查 90
9.5 小结 91
第10章 循环,Un-R方式的迭代 92
10.1 for循环 92
10.2 while循环 94
10.3 控制循环 94
10.4 小结 95
第11章 分组操作 96
11.1 apply函数族 96
11.2 aggregate 99
11.3 plyr 102
11.4 data.table 106
11.5 小结 114
第12章 数据整理 115
12.1 cbind和rbind 115
12.2 连接 116
12.3 reshape2 122
12.4 小结 125
第13章 字符串操作 126
13.1 paste 126
13.2 把格式数据写成串(sprintf) 127
13.3 提取文本 128
13.4 正则表达式 132
13.5 小结 138
第14章 概率分布 139
14.1 正态分布 139
14.2 二项分布 144
14.3 泊松分布 148
14.4 其他分布 150
14.5 小结 152
第15章 描述性统计 153
15.1 概括性统计量 153
15.2 相关系数和协方差 156
15.3 t-检验 163
15.4 方差分析 169
15.5 小结 171
第16章 线性模型 172
16.1 简单线性回归 172
16.2 多元回归 177
16.3 小结 190
第17章 广义线性模型 191
17.1 逻辑斯蒂回归 191
17.2 泊松回归 194
17.3 其他的广义线性模型 198
17.4 生存分析 198
17.5 小结 202
第18章 模型诊断 203
18.1 残差 203
18.2 模型比较 208
18.3 交叉验证 211
18.4 Bootstrap 215
18.5 逐步变量选择 218
18.6 小结 221
第19章 正则化和压缩 222
19.1 弹性网络 222
19.2 贝叶斯压缩 235
19.3 小结 238
第20章 非线性模型 239
20.1 非线性最小二乘 239
20.2 样条 241
20.3 广义相加模型 245
20.4 决策树 249
20.5 随机森林 251
20.6 小结 251
第21章 时间序列和自相关 252
21.1 自回归移动平均模型 252
21.2 向量自回归 258
21.3 广义自回归异方差模型(GARCH) 263
21.4 小结 270
第22章 聚类 271
22.1 K-means 271
22.2 PAM 277
22.3 分层聚类 282
22.4 小结 284
第23章 可重复性、报告和利用knitr滑动展示 285
23.1 安装LATEX程序 285
23.2 LATEX初级 286
23.3 通过LATEX使用knitr 288
23.4 Markdown技巧 291
23.5 使用knitr和Markdown 292
23.6 pandoc 293
23.7 小结 295
第24章 创建R包 296
24.1 目录结构 296
24.2 包文件 297
24.3 包文档 302
24.4 包的检查、创建和安装 304
24.5 提交至CRAN 305
24.6 C++代码 305
24.7 小结 310
附录A 相关资源 311
《平衡掌控者》内容简介:本书由真正从事游戏行业工作的一线人员所著,书中的全部案例来自真实的游戏设计案例。全书共7章,第1章介
移动学习理论与实践 本书特色 《移动学习理论与实践》通过对移动学习的理论分析,探讨了与其紧密相关的技术问题及实现模式,并通过案例详细介绍了移动学习系统的构建过程...
《大势研判》内容简介:当前中国经济最大的宏观背景是增速换挡、结构调整和改革转型。本书试图采用“转型宏观”分析框架,打通长期
TherehasbeenadramaticgrowthinthedevelopmentandapplicationofBayesianinferentialme...
本书深入而又系统地介绍了以软件完全虚拟化、硬件辅助虚拟化及类虚拟化为核心的各种系统虚拟化技术。全书共9章,第1章概述性地介
《简单高效LaTeX》内容简介:本书从解答为何要学习使用LaTeX谈起,以丰富的范例和简洁的语言,系统介绍了科学排版系统LaTeX的基础知
机械CAD/CAM技术-第3版 内容简介 本书系统地讲述了机械cad/cam的基本概念、应用方法和关键技术。主要内容包括cad/cam系统工作原理、软硬件支撑环...
《水墨畲影·浙江省畲族元素钢琴作品集》内容简介:内容丰富,构思新颖,整部音乐作品集紧紧围绕着畲字做文章,说起畲字就不得不提
这是一本极其实用的设计训练书。本书内容包括使用基本图形的平面构图训练、使用色彩的平面构图训练、构图实战训练等。书中为读者
《网众传播 (数字媒介变革书系)》内容简介:“网众传播”指的是由“网众”发起和参与,由“社会性媒体”中介的传播模式、现象与行
《数据自助服务实践指南:数据开放与洞察提效》内容简介:本书主要介绍数据洞察及其四个阶段,第1部分为自助服务数据发现,包括元数
在这个信息技术无所不在的时代,编程能力正在变得越来越重要。C++以高性能、易移植而著称,而且同时支持过程式、面向对象和泛型编
计算机便携化是未来的发展趋势,而Android作为最受欢迎的手机、平板电脑操作之一,其发展的上升势头是势不可当的。而Android应用
《饿了么质量体系搭建实战》内容简介:本书是饿了么企业订餐团队在软件质量保障方面的经验总结。它通过讲解该团队如何从0到1构建软
《你不知道的JavaScript(上卷)》内容简介:JavaScript语言有很多复杂的概念,但却用简单的方式体现出来(比如回调函数),因此,
《画出来的箴言》批判了现代艺术发展过程中某些虚伪可笑的现象:艺术被功利化,被用来欺蒙大众;富人们追求现代艺术只是赶时髦;
《名院名医孕产育儿全程指导方案:40周幸福怀孕》内容简介:在40周的孕期生活中,孕妈妈的身体会发生怎样的变化?胎宝宝会按照怎样
《金融科技乱象》内容简介:金融科技是时下炙手可热的话题,也是财经报道中吸睛的超高频词。本书作者根据近十年来投身消费金融、互
平面构成就是在二维平面内创造理想形态,或是将既有的形态(具体形态的抽象形态)按照一定原理进行分解、组合,从而构成多种理想
本书由一个团队编写而成,这个团队的成员都是一些经验丰富且专注于JavaScript的开发者。TomHallett是一位高级Ruby和JavaScript工