资深数据专家凝炼数十年教学和实践经验,全面阐释如何使用R的20%功能完成80%的现代数据工作。
本书是资深数据专家数十年教学与实践经验的结晶,以简单直接的方式详细讲解R语言的所有基础知识,以及常见统计方法和模型在R中的操作规范,通过大量实例,帮助读者快速理解并掌握R的核心功能,有效解决实际工作问题。
本书共24章,第1~3章介绍R语言的获取与安装、R环境的设置以及R包的基础知识;第4~5章介绍R语言基础知识和高级数据结构,涉及数学运算、向量、调用函数以及数据框、列表、矩阵和数组等;第6章介绍如何导入数据;第7章详细介绍统计图形的绘制,包括基本绘图和ggplot2;第8~10章介绍R函数编写,包括对结构、参数和返回规则的讨论,讲解if和ifelse以及复杂语句控制程序的流程、for和while循环迭代等;第11~13章介绍数据的分组操作、数据整理和字符串操作;第14~15章介绍概率分布与描述性统计;第16~20章介绍线性模型、广义线性模型、模型诊断、正则化与压缩以及非线性模型等;第21章介绍时间序列和自相关;第22章介绍各种聚类方式,包括K-means和分层聚类;第23章讨论可重复性、报告和利用knitr滑动展示;第24介绍如何创建R包。
译者序
序言
前言
致谢
第1章 获取R 1
1.1 下载R 1
1.2 R版本 2
1.3 32位与64位 2
1.4 安装 2
1.5 R的社区版革命 8
1.6 小结 9
第2章 R环境 10
2.1 命令行界面 11
2.2 RStudio 12
2.3 Revolution Analytics RPE 20
2.4 小结 20
第3章 R包 21
3.1 包的安装 21
3.2 包的加载 23
3.3 创建一个包 24
3.4 小结 24
第4章 R语言基础 25
4.1 基本数学运算 25
4.2 变量 26
4.3 数据类型 28
4.4 向量 33
4.5 调用函数 37
4.6 函数文件 38
4.7 缺失数据 38
4.8 小结 39
第5章 高级数据结构 40
5.1 数据框 40
5.2 列表 47
5.3 矩阵 52
5.4 数组 54
5.5 小结 55
第6章 导入数据 56
6.1 导入CSV 56
6.2 导入Excel数据 57
6.3 读入数据库数据 58
6.4 导入其他统计工具数据 59
6.5 R二进制文件 60
6.6 包含在R中的数据 62
6.7 从互联网上抓取数据 62
6.8 小结 63
第7章 统计图形 64
7.1 基本图形 64
7.2 ggplot2 66
7.3 小结 78
第8章 编写R函数 79
8.1 hello world! 79
8.2 函数参数 80
8.3 返回值 82
8.4 do.call 83
8.5 小结 84
第9章 控制语句 85
9.1 if和else语句 85
9.2 switch语句 88
9.3 ifelse语句 89
9.4 复合检查 90
9.5 小结 91
第10章 循环,Un-R方式的迭代 92
10.1 for循环 92
10.2 while循环 94
10.3 控制循环 94
10.4 小结 95
第11章 分组操作 96
11.1 apply函数族 96
11.2 aggregate 99
11.3 plyr 102
11.4 data.table 106
11.5 小结 114
第12章 数据整理 115
12.1 cbind和rbind 115
12.2 连接 116
12.3 reshape2 122
12.4 小结 125
第13章 字符串操作 126
13.1 paste 126
13.2 把格式数据写成串(sprintf) 127
13.3 提取文本 128
13.4 正则表达式 132
13.5 小结 138
第14章 概率分布 139
14.1 正态分布 139
14.2 二项分布 144
14.3 泊松分布 148
14.4 其他分布 150
14.5 小结 152
第15章 描述性统计 153
15.1 概括性统计量 153
15.2 相关系数和协方差 156
15.3 t-检验 163
15.4 方差分析 169
15.5 小结 171
第16章 线性模型 172
16.1 简单线性回归 172
16.2 多元回归 177
16.3 小结 190
第17章 广义线性模型 191
17.1 逻辑斯蒂回归 191
17.2 泊松回归 194
17.3 其他的广义线性模型 198
17.4 生存分析 198
17.5 小结 202
第18章 模型诊断 203
18.1 残差 203
18.2 模型比较 208
18.3 交叉验证 211
18.4 Bootstrap 215
18.5 逐步变量选择 218
18.6 小结 221
第19章 正则化和压缩 222
19.1 弹性网络 222
19.2 贝叶斯压缩 235
19.3 小结 238
第20章 非线性模型 239
20.1 非线性最小二乘 239
20.2 样条 241
20.3 广义相加模型 245
20.4 决策树 249
20.5 随机森林 251
20.6 小结 251
第21章 时间序列和自相关 252
21.1 自回归移动平均模型 252
21.2 向量自回归 258
21.3 广义自回归异方差模型(GARCH) 263
21.4 小结 270
第22章 聚类 271
22.1 K-means 271
22.2 PAM 277
22.3 分层聚类 282
22.4 小结 284
第23章 可重复性、报告和利用knitr滑动展示 285
23.1 安装LATEX程序 285
23.2 LATEX初级 286
23.3 通过LATEX使用knitr 288
23.4 Markdown技巧 291
23.5 使用knitr和Markdown 292
23.6 pandoc 293
23.7 小结 295
第24章 创建R包 296
24.1 目录结构 296
24.2 包文件 297
24.3 包文档 302
24.4 包的检查、创建和安装 304
24.5 提交至CRAN 305
24.6 C++代码 305
24.7 小结 310
附录A 相关资源 311
《奠基:苏联援华156项工程始末》内容简介:1953-1957年,新中国实施了第一个五年计划。以这一时期为主,苏联帮助中国建设了156项工
本书从信道衰落的物理本质入手,给出了无线移动信道完整的数学模型,简明、清晰地阐述了由时间、频率和空间变化所引起的三种不同
《智能制造系统:模型、技术与运行》内容简介:本书针对新一轮工业革命中的智能制造系统,在概要阐述智能制造发展历程及其主要参考
《黑客攻防从入门到精通:黑客与反黑客工具篇(第2版)》内容简介:本书从“攻”“防”两个不同的角度出发,在讲解黑客攻击手段的同
《清华大学电子与信息技术系列教材:现代通信原理》以现代通信系统为背景,系统、深入地介绍现代通信技术的基本原理,并以数字通信
本书是日本东京吉祥寺人气生活杂货店老板,从他生活中实际使用的物品,严选170件既实用又具美感的经典好设计而集结而成。里头有的
《中国式价值投资(修订版)》内容简介:2009年6月,李驰在北京见到索罗斯,提出了一个思索很久的问题:能不能既做巴菲特,又做索罗
《GAE编程指南》是一种云计算服务,跟其他的同类产品不同,它提供了一种简单的应用程序构建模型,通过这种模型,你可以轻松地构建
《乾坤衍》内容简介:熊十力哲学三部曲:《新唯识论》《体用论》《乾坤衍》。从中可以清晰看到熊十力思想的出发点和演变轨迹。熊十
《移动互联网时代的新媒体概论》内容简介:经过多年的发展,基于互联网的新媒体从形式到内容,从功能到技术都发生了深刻的变化。在
高级进阶DB2(第2版)——内部结构、高级管理与问题诊断 本书特色 数据库内核是数据库系统稳定运行的心脏,db2数据库内核庞大而复杂。本书从db2内核组件入手,...
《人人可懂的深度学习》内容简介:采用通俗易懂的语言,简明而全面地介绍对人工智能革命起到核心作用的深度学习技术。作者:【爱尔
《单读16:新北京人》内容简介:“必须要有一个开始写作的起点。一个地方。”——舍伍德·安德森 “你需要想象北京,北京会满足你的
《寻找古诗之美(套装全三册)》内容简介:本书共三册,第一册60首,适合6—8岁孩子,第二册70首,适合8—10岁孩子,第三册82首,适
国内的动物园设计一直处于比较混乱的状态,没有可统一借鉴的参考用书。张恩权、李晓阳编著的这本《图解动物园设计》是动物园和设
《从感觉开始》内容简介:陈嘉映经典学术随笔。世界在感觉里,感觉又在哪里? 真正的理解里也总有不曾完全明了的东西,清明的理解连
《煮海时光:侯孝贤的光影记忆》内容简介:本书按创作年序,收录了侯导从影四十年来,每一部作品台前幕后的珍贵回忆。对侯孝贤这样
《淘宝开店从新手到皇冠:开店+装修+推广+运营一本通(第3版)》内容简介:“淘宝开店”畅销书全新升级,资深讲师倾囊相授!哪怕你
samuelp.harbisoniii于卡内基—梅隆大学获得计算机科学博士学位,现任carlow学院的计算机科学系副教授。他曾就职于德州仪器和ta
APDL参数化有限元分析技术及其应用实例 本书特色 本书主要适合于已掌握基本操作的ANSYS初级用户和部分中、高级用户,是一本学习APDL的技术资料,也是灵活掌...