《复杂数据统计方法——基于r的应用》用自由的日软件分析30多个可以从国外网站下载的真实数据,包括横截面数据、纵向数据和时间序列数据,通过这些数据介绍了几乎所有经典方法及最新的机器学习方法。
《复杂数据统计方法——基于r的应用》特点:(1)以数据为导向;(2)介绍最新的方法(附有传统方法回顾);(3)提供r软件入门及全部例子计算的日代码及数据的网址;(4)各章独立。
《复杂数据统计方法——基于r的应用》的读者对象包括统计学、应用统计学、经济学、数学、应用数学、精算、环境、计量经济学、生物医学等专业的本科、硕士及博士生,各领域的教师和实际工作者。
第1章引言
1.1作为科学的统计
1.2数据分析的实践
1.3数据的形式以及可能用到的模型
1.3.1横截面数据:因变量为实轴上的数量变量
1.3.2横截面数据:因变量为分类(定性)变量或者频数
1.3.3纵向数据,多水平数据,面板数据,重复观测数据
1.3.4多元数据各变量之间的关系:多元分析
1.3.5路径模型/结构方程模型
1.3.6多元时间序列数据
1.4 r软件入门
1.4.1简介
1.4.2动手
第2章横截面数据:因变量为实数轴上的数量变量
2.1简单回归回顾
2.2简单线性模型不易处理的横截面数据
2.2.1标准线性回归中的指数变换
2.2.2生存分析数据的cox回归模型
2.2.3数据出现多重共线性情况:岭回归,lasso回归,适应性lasso回归,偏最小二乘回归
.2.2.4无法做任何假定的数据:机器学习回归方法
2.2.5决策树回归(回归树)
2.2.6boosting回归
2.2.7bagging回归
2.2.8随机森林回归
2.2.9人工神经网络回归
2.2.10支持向量机回归
2.2.11几种回归方法五折交叉验证结果
2.2.12方法的稳定性及过拟合
第3章横截面数据:因变量为分类变量及因变量为频数(计数)变量的情况
3.1经典logistic回归,probit回归和仅适用于数量自变量的判别分析回顾
3.1.1logistic回归和probit回归
3.1.2经典判别分析
3.2因变量为分类变量,自变量含有分类变量:机器学习分类方法
3.2.1决策树分类(分类树)
3.2.2adaboost分类
3.2.3bagging分类
3.2.4随机森林分类
3.2.5支持向量机分类
3.2.6最近邻方法分类
3.2.7分类方法五折交叉验证结果
3.3因变量为频数(计数)的情况
3.3.1经典的poisson对数线性模型回顾
3.3.2使用poisson对数线性模型时的散布问题
3.3.3零膨胀计数数据的poisson回归
3.3.4使用机器学习的算法模型拟合计数数据
3.3.5多项logit模型及多项分布对数线性模型回顾
第4章纵向数据(多水平数据,面板数据)
4.1纵向数据:线性随机效应混合模型
4.2纵向数据:广义线性随机效应混合模型
4.3纵向数据:决策树及随机效应模型
4.4纵向数据:纵向生存数据
4.4.1cox随机效应混合模型
4.4.2分步联合建模
4.5计量经济学家的视角:面板数据
第5章多元分析(不区分因变量及自变量)
5.1实数轴上的数据:经典多元分析内容回顾
5.1.1主成分分析及因子分析
5.1.2分层聚类及k均值聚类
5.1.3典型相关分析
5.1.4对应分析
5.2非经典多元数据分析:可视化
5.2.1主成分分析
5.2.2对应分析
5.2.3多重对应分析
5.2.4多重因子分析
5.2.5分层多重因子分析
5.2.6基于主成分分析的聚类
5.3多元数据的关联规则分析
第6章路径建模(结构方程建模)数据的pls分析
6.1路径模型概述
6.1.1路径模型
6.1.2路径模型的两种主要方法
6.2 pls方法:顾客满意度的例子
6.3协方差方法简介
6.4结构方程模型的一些问题
第7章多元时间序列数据
7.1时间序列的基本概念及单变量时间序列方法回顾
7.1.1时间序列的一些定义和基本概念
7.1.2常用的一元时间序列方法
7.2单位根及协整检验
7.2.1概述
7.2.2单位根检验
7.2.3协整检验
7.3varx模型与状态空间模型
7.3.1varx模型拟合
7.3.2状态空间模型拟合
7.3.3模型的比较和预测
附录练习:熟练使用r软件
参考文献
《中国区域经济发展报告(2018)》内容简介:2019年是我国改革开放的第41年,也是区域经济学成立的第30年,因此本书以“回顾改革开
《RubyonRails社区网站开发》全面探讨创建完整社区网站的开发过程。首先介绍开发一个内容简单的管理系统,之后逐渐添加新特性,以
机器智能人脸工程 本书特色 人脸工程学的研究内容主要包括人脸识别、表情识别和人脸合成三个部分。本书分别介绍了人脸识别、表情识别和人脸合成研究中用到的相关理论和算...
《深入理解InfluxDB:时序数据库详解与实践》内容简介:时序数据库是一种新型技术,主要用于工业互联网软件建设中。近年来,伴随着
《国际顶尖插画艺术家的创造力x商业力》内容简介:艺术与商业日渐和谐,划分高尚艺术与流行文化的分界线逐渐模糊,艺术家的身份也
《西线无战事》内容简介:第一次世界大战开始后不久,保罗和同学们怀着英雄主义的理想,志愿报名参军。经过短暂的训练后,他们被送
《政策不确定性、资源配置效率与企业高质量发展》内容简介:本书立足转轨经济背景,突破只见“政府”不见“官员”的研究困境,在政
《蒲褐山房诗话新编》内容简介:以诗话命名的著作始于欧阳修。它是一种以文学为内容的随笔。所以许颉说:『诗话者,辨句法,备古今
《收益递增:转型期中国社会的经济学原理》内容简介:本书内容出自汪丁丁教授近年为北京大学国家发展研究院开设的EMBA课程。作者认
本书从生物进化论、传播学、社会学、科学、经济学和哲学的角度,全方位预测了互联网将给人类未来的文化、科技和经济带来的深刻变
《C++并发编程实战(第2版)》内容简介:这是一本介绍C++并发和多线程编程的深度指南。本书从C++标准程序库的各种工具讲起,介绍线
《计算复杂性导论》可用作计算机专业、计算数学专业的计算机理论课程的教材,也是有关研究人员不可或缺的参考书。计算复杂性理论
《明亮的泥土:颜料发明史(天际线丛书)》内容简介:每位艺术家,都与他那个时代的颜色有一份属于自己的约定。一部揭示艺术、科学
中文版Photoshop CS6平面设计从入门到精通-全彩超值版 本书特色 本书是入门级读者快速、全面掌握中文版photoshop cs6平面设计的**参考书。...
本书为日本公认的最好的Ruby入门教程。松本行弘亲自审校并作序推荐。本书支持最新的Ruby2.0,也附带讲解了可运行于1.9版本的代码
《云计算安全与隐私》可以使你明白当把数据交付给云计算时你所面临的风险,以及为了保障虚拟基础设施和网络应用程序的安全可以采
《2020—2021年中国网络可信身份服务发展蓝皮书(精装版)》内容简介:在国家政策支持下,2020年我国网络可信身份服务业发展迅猛,
《构建实时机器学习系统》内容简介:本书首先利用Pandas对美股秒级交易数据进行分析,利用Scikit-learn对股票变化方向进行预测,并
《千年贸易战争史:贸易冲突与大国兴衰》内容简介:贸易与冲突是构成世界历史的主要内容之一,经贸利益是世界历史上很多重大战争的
在内容上,本书结合使用情景,全面、深入、细致地分析Android系统的源代码,涉及到Linux内核层、硬件抽象层(HAL)、运行时库层(