多元统计分析及R语言建模
22级期末考试题型
一、选择题(10小题,20分)
二、简答题(4小题,20分)
描述某个方法的核心步骤以及R程序、某个方法有何用途
三、计算题(2小题,10分)
计算量简单
四、案例分析题(4小题,40分)
对代码及运行结果解读,这个函数是什么功能?每个参数的解读
分别对应四章内容
五、综合题(1题,10分)
期末复习
在R语言中a[1]就代表着输出第一个元素
a <- c(0,1,2) a[c(1,3)]就代表着访问第一个和第三个元素
散点图数目与数据维度平方成正比
方差分析又称F检验 (F test),用于推断多个总体均值有无显著差异
F统计量中 F=组间方差(离差平方和/自由度)/组内方差,F值大说明变量之间存在关系
在统计学中,两个分类变量的列联表中的期望频数可以通过以下公式计算:
- (行合计)*(列合计)/总样本量
卡方独立性检验看p值
研究者通常会对因子载荷矩阵进行旋转,如正交旋转(varimax)或斜交旋转(oblimin),这样可以使得载荷在某个因子上集中,而在其他因子上接近零,从而使得因子的解释更加清晰和易于理解。
单因素方差分析(ANOVA)主要用来比较三个或者更多个样本组的总体均值是否存在显著差异。其基本假设是各组数据来自正态分布,且具有相同的方差。方差分析的核心在于分析组间差异是否显著大于组内差异。
当 p 值小于 0.05 时,意味着我们拒绝零假设(null hypothesis)。在单因素方差分析中,零假设是指所有组的总体均值相等。因此,拒绝这一假设意味着至少有两组的总体均值存在显著差异,但并不意味着所有组的总体均值都不相等。
factor()函数用于创建因子变量,非数值型变量(类别变量和顺序变量)在R语言中称为因子,因子型变量内的所有为非重复值
glm()
函数是R语言中用于拟合广义线性模型(Generalized Linear Models, GLMs)的函数。广义线性模型是线性模型的一种扩展,适用于不满足正态分布假设的数据,比如二项分布(逻辑回归)、泊松分布(泊松回归)考虑到“Survived”是一个二分类变量,我们可以使用逻辑回归(Logistic Regression)来建立模型。逻辑回归适用于预测二元结果(是/否,生还/未生还)。
逻辑回归是一种用于处理二元结果的统计方法,通常用于预测某事件发生的概率。在R语言中,逻辑回归可以使用
glm
函数来实现,其中family = binomial
表示二项分布。泊松逻辑回归通常用于处理计数数据,比如事件发生的次数。
协方差矩阵的用途:
- 刻画数据整体离散型
- 定义统计距离
rossTable( )—gmodels包
计算(行、列、单元格)的百分比
指定小数位数
进行卡方、Fisher和McNemar独立性检验
计算期望和(皮尔逊、标准化、调整的标准化)残差
将缺失值作为一种有效值
进行行和列标题的标注
生成SAS或SPSS风格的输出
chisq.test( )
- 检验列联表行列变量间是否存在显著性差异,或者用于检验变量之间是否独立
setwd()
- 查看文件属性,找出路径
判别分析
寻找一个投影方向,把两个群体分得最开的一种方法
样本均值投影的标准化距离最大
√ Fisher ‘s LDA对分布没有要求,但要求不同群体有相同协方差矩阵。
√Fisher ‘s LDA为线性判别方法,还有很多(非线性)判别函数的构造方式。
Fisher分类实际是在比较新观测对象yo与y1、y2间的马氏距离
主成分分析
Standard deviation:标准差,其平方为方差=特征值
Proportoin of Variance:方差贡献率
Cumulative Proportion:累积方差贡献率
- PCA = prcomp(data_num , center = T , scale. = T)
- 中心化和归一化所有数值变量,从而平等地考虑各个数值变量的影响
主成分分析函数princomp()的用法:
princomp(x,cor=FALSE,scores=TRUE,…)
x | 数据矩阵或数据框 |
---|---|
cor | 是否用相关阵,默认为协差阵 |
scores | 是否输出成分得分 |
各大分析方法的基本步骤
回归分析的基本步骤:
1、确定自变量和因变量
2、从样本数据出发确定变量之间的数学关系式,并对回归方程的各个参数进行估计
3、对回归方程进行各种统计检验
4、利用回归方程进行预测
基本思想:
采集样本信息->回归分析(散点图)->回归方程->回归方程的显著性检验->对现实进行预测与控制
自变量筛选:
Logistic
family = binomial
指定了使用二项逻辑回归模型来拟合数据
D-W检验:
一种检验序列自相关的方法
多重共线性检验:
VIF>5,多重共线
hp wt
1.766625 1.766625
分析:方差膨胀因子较小,无多重共线性。
期末考试题型大多都是作业上的(难受至极,因为通宵复习了一晚上的ppt……选择>>努力)
我来简单的复盘一下:
一个 r*c 列联表,进行卡方独立性检验时检验统计量的自由度为?
单因素方差分析中,当 p 值小于 0.05 时,可认为?
Q 型聚类统计量是( ),R 型聚类统计量是( )
请简述对线性回归系数进行标准化有何用处?
聚类分析的三步核心步骤与核心代码
主成分分析中主成分如何选择
箱型图的解释
SSA、SSB、SST…相关的计算
计算欧式距离与什么距离(忘了)
Fisher判别分析给出混淆矩阵分析(请记得算出判对率和判错率)
相关分析(记得从上到下,从左往右的分析)
最后一道是给出很多数据的的excel文件,请选择部分数据进行研究,给出多元统计分析方法和核心代码
剩下的就记不到了。。祝各位好运!