资深数据专家凝炼数十年教学和实践经验,全面阐释如何使用R的20%功能完成80%的现代数据工作。
本书是资深数据专家数十年教学与实践经验的结晶,以简单直接的方式详细讲解R语言的所有基础知识,以及常见统计方法和模型在R中的操作规范,通过大量实例,帮助读者快速理解并掌握R的核心功能,有效解决实际工作问题。
本书共24章,第1~3章介绍R语言的获取与安装、R环境的设置以及R包的基础知识;第4~5章介绍R语言基础知识和高级数据结构,涉及数学运算、向量、调用函数以及数据框、列表、矩阵和数组等;第6章介绍如何导入数据;第7章详细介绍统计图形的绘制,包括基本绘图和ggplot2;第8~10章介绍R函数编写,包括对结构、参数和返回规则的讨论,讲解if和ifelse以及复杂语句控制程序的流程、for和while循环迭代等;第11~13章介绍数据的分组操作、数据整理和字符串操作;第14~15章介绍概率分布与描述性统计;第16~20章介绍线性模型、广义线性模型、模型诊断、正则化与压缩以及非线性模型等;第21章介绍时间序列和自相关;第22章介绍各种聚类方式,包括K-means和分层聚类;第23章讨论可重复性、报告和利用knitr滑动展示;第24介绍如何创建R包。
译者序
序言
前言
致谢
第1章 获取R 1
1.1 下载R 1
1.2 R版本 2
1.3 32位与64位 2
1.4 安装 2
1.5 R的社区版革命 8
1.6 小结 9
第2章 R环境 10
2.1 命令行界面 11
2.2 RStudio 12
2.3 Revolution Analytics RPE 20
2.4 小结 20
第3章 R包 21
3.1 包的安装 21
3.2 包的加载 23
3.3 创建一个包 24
3.4 小结 24
第4章 R语言基础 25
4.1 基本数学运算 25
4.2 变量 26
4.3 数据类型 28
4.4 向量 33
4.5 调用函数 37
4.6 函数文件 38
4.7 缺失数据 38
4.8 小结 39
第5章 高级数据结构 40
5.1 数据框 40
5.2 列表 47
5.3 矩阵 52
5.4 数组 54
5.5 小结 55
第6章 导入数据 56
6.1 导入CSV 56
6.2 导入Excel数据 57
6.3 读入数据库数据 58
6.4 导入其他统计工具数据 59
6.5 R二进制文件 60
6.6 包含在R中的数据 62
6.7 从互联网上抓取数据 62
6.8 小结 63
第7章 统计图形 64
7.1 基本图形 64
7.2 ggplot2 66
7.3 小结 78
第8章 编写R函数 79
8.1 hello world! 79
8.2 函数参数 80
8.3 返回值 82
8.4 do.call 83
8.5 小结 84
第9章 控制语句 85
9.1 if和else语句 85
9.2 switch语句 88
9.3 ifelse语句 89
9.4 复合检查 90
9.5 小结 91
第10章 循环,Un-R方式的迭代 92
10.1 for循环 92
10.2 while循环 94
10.3 控制循环 94
10.4 小结 95
第11章 分组操作 96
11.1 apply函数族 96
11.2 aggregate 99
11.3 plyr 102
11.4 data.table 106
11.5 小结 114
第12章 数据整理 115
12.1 cbind和rbind 115
12.2 连接 116
12.3 reshape2 122
12.4 小结 125
第13章 字符串操作 126
13.1 paste 126
13.2 把格式数据写成串(sprintf) 127
13.3 提取文本 128
13.4 正则表达式 132
13.5 小结 138
第14章 概率分布 139
14.1 正态分布 139
14.2 二项分布 144
14.3 泊松分布 148
14.4 其他分布 150
14.5 小结 152
第15章 描述性统计 153
15.1 概括性统计量 153
15.2 相关系数和协方差 156
15.3 t-检验 163
15.4 方差分析 169
15.5 小结 171
第16章 线性模型 172
16.1 简单线性回归 172
16.2 多元回归 177
16.3 小结 190
第17章 广义线性模型 191
17.1 逻辑斯蒂回归 191
17.2 泊松回归 194
17.3 其他的广义线性模型 198
17.4 生存分析 198
17.5 小结 202
第18章 模型诊断 203
18.1 残差 203
18.2 模型比较 208
18.3 交叉验证 211
18.4 Bootstrap 215
18.5 逐步变量选择 218
18.6 小结 221
第19章 正则化和压缩 222
19.1 弹性网络 222
19.2 贝叶斯压缩 235
19.3 小结 238
第20章 非线性模型 239
20.1 非线性最小二乘 239
20.2 样条 241
20.3 广义相加模型 245
20.4 决策树 249
20.5 随机森林 251
20.6 小结 251
第21章 时间序列和自相关 252
21.1 自回归移动平均模型 252
21.2 向量自回归 258
21.3 广义自回归异方差模型(GARCH) 263
21.4 小结 270
第22章 聚类 271
22.1 K-means 271
22.2 PAM 277
22.3 分层聚类 282
22.4 小结 284
第23章 可重复性、报告和利用knitr滑动展示 285
23.1 安装LATEX程序 285
23.2 LATEX初级 286
23.3 通过LATEX使用knitr 288
23.4 Markdown技巧 291
23.5 使用knitr和Markdown 292
23.6 pandoc 293
23.7 小结 295
第24章 创建R包 296
24.1 目录结构 296
24.2 包文件 297
24.3 包文档 302
24.4 包的检查、创建和安装 304
24.5 提交至CRAN 305
24.6 C++代码 305
24.7 小结 310
附录A 相关资源 311
《SQL反模式》是一本广受好评的SQL图书。它介绍了如何避免在SQL的使用和开发中陷入一些常见却经常被忽略的误区。它通过讲述各种具
《历史不曾远去:吴晗读史札记》内容简介:本书是吴晗在二十世纪三四十年代发表于国内各大历史学术杂志上的历史研究随笔,共十一篇
《手到病自除2:常见病反射区自愈疗法(下)(2022版)》内容简介:本书是《手到病自除(增订精华版)》系列第二册,书中完整介绍了
本书是最全面的机器学习教材之一。书中首先介绍了机器学习的构成要素(任务、模型、特征)和机器学习任务,接着详细分析了逻辑模
完全掌握Windows 7超级手册 本书特色 windows 7排忧解惑,告诉你微软没有讲清楚的事windows 7无线网络架设笔记本电脑使用windows 7...
计算机操作系统-(第三版) 本书特色 本书全面介绍了计算机系统中的一个重要软件——操作系统(OS),本书是第三版,对2001年出版的修订版的各章内容均作了较多的...
《云计算:大数据时代的系统工程》主要讲述了,在互联网带来的“大”问题压力下,我们需要全新的思想,通过“积木化”的改变,来重
《人生三用》内容简介:本书所谓“三用”是用心、用智、用力。“三用”是一种主动的生活态度,是对大多数人随波逐流、碌碌无为之现
语音处理及人机交互技术 本书特色 《语音处理及人机交互技术/智能科学技术著作丛书》是在作者张毅、刘想德、罗元多年从事服务机器人及信息无障碍技术的基础上总结所取得...
机器人爱好者-第1辑 本书特色 本书是美国机器人杂志《Servo》精华内容的合集。全书根据主题内容的相关性,进行了精选和重新组织,分为5章。第1章介绍了机器人的...
统计表明,所有效率低下的组织都有一个共性:员工没有归属感!有归属感的员工有责任心、有归属感的员工执行力强、有归属感的员
《史学史研究的理论与实践》内容简介:本书汇集作者对于史学理论与史学史的部分论述,分为四章,即“史学理论探析”、“史家史书考
《Kubernetes实战:构建生产级应用平台》内容简介:本书探讨了通往Kubernetes生产环境成功道路中所涉及的多种技术、模式和抽象方面
中文版InDesign CS5技术大全-(附光盘) 本书特色 超厚手册,超大容量,技术全面,39章教学内容,软件功能全覆盖,基础详解、功能全面、理论实践全接触,...
《我是90后,我是创业家》内容简介:第1本揭秘17个90后精彩创业故事。他们是:脸萌创始人郭列、北大硕士卖米粉的张天一、微博《我只
《注册会计师全国统一考试专用辅导教材:税法经典题库》内容简介:为帮助广大考生更好地理解和掌握注册会计师的考试内容,我们邀请
《Neo4j 3.x入门经典》内容简介:Neo4j是一个高性能的NoSQL图数据库,将结构化数据存储在拓扑图上而不是表中,从而轻松地管理巨量的
《图解室内设计分析》:建筑师和室内设计师在今天这个读图时代,每天与大量的视觉信息打交道,图像的瞬时显示成了设计师看图的主
《赵晓生钢琴独奏作品集》内容简介:《赵晓生钢琴独奏作品集》收入了创作乐曲6首,如《太极》;改编乐曲《青松岭》等6首;音乐会练
《PYTHON技术手册》随着计算机技术的成熟和广泛应用,人类正在步入一个技术迅猛发展的新时期。计算机技术的发展给人们的工业生产