多元统计分析及R语言建模

22级期末考试题型

一、选择题（10小题，20分）

二、简答题（4小题，20分）

描述某个方法的核心步骤以及R程序、某个方法有何用途

三、计算题（2小题，10分）

计算量简单

四、案例分析题（4小题，40分）

对代码及运行结果解读，这个函数是什么功能？每个参数的解读

分别对应四章内容

五、综合题（1题，10分）

期末复习

在R语言中a[1]就代表着输出第一个元素
a <- c(0,1,2) a[c(1,3)]就代表着访问第一个和第三个元素
散点图数目与数据维度平方成正比
方差分析又称F检验 (F test)，用于推断多个总体均值有无显著差异
F统计量中 F=组间方差（离差平方和/自由度）/组内方差，F值大说明变量之间存在关系
在统计学中，两个分类变量的列联表中的期望频数可以通过以下公式计算：
- (行合计)*(列合计)/总样本量
卡方独立性检验看p值
研究者通常会对因子载荷矩阵进行旋转，如正交旋转（varimax）或斜交旋转（oblimin），这样可以使得载荷在某个因子上集中，而在其他因子上接近零，从而使得因子的解释更加清晰和易于理解。
单因素方差分析（ANOVA）主要用来比较三个或者更多个样本组的总体均值是否存在显著差异。其基本假设是各组数据来自正态分布，且具有相同的方差。方差分析的核心在于分析组间差异是否显著大于组内差异。
当 p 值小于 0.05 时，意味着我们拒绝零假设（null hypothesis）。在单因素方差分析中，零假设是指所有组的总体均值相等。因此，拒绝这一假设意味着至少有两组的总体均值存在显著差异，但并不意味着所有组的总体均值都不相等。
factor()函数用于创建因子变量，非数值型变量（类别变量和顺序变量）在R语言中称为因子，因子型变量内的所有为非重复值
glm() 函数是R语言中用于拟合广义线性模型（Generalized Linear Models, GLMs）的函数。广义线性模型是线性模型的一种扩展，适用于不满足正态分布假设的数据，比如二项分布（逻辑回归）、泊松分布（泊松回归）
考虑到“Survived”是一个二分类变量，我们可以使用逻辑回归（Logistic Regression）来建立模型。逻辑回归适用于预测二元结果（是/否，生还/未生还）。
逻辑回归是一种用于处理二元结果的统计方法，通常用于预测某事件发生的概率。在R语言中，逻辑回归可以使用glm函数来实现，其中family = binomial表示二项分布。
泊松逻辑回归通常用于处理计数数据，比如事件发生的次数。
协方差矩阵的用途：
- 刻画数据整体离散型
- 定义统计距离
rossTable( )—gmodels包
- 计算（行、列、单元格）的百分比
- 指定小数位数
- 进行卡方、Fisher和McNemar独立性检验
- 计算期望和（皮尔逊、标准化、调整的标准化）残差
- 将缺失值作为一种有效值
- 进行行和列标题的标注
- 生成SAS或SPSS风格的输出
chisq.test( )
- 检验列联表行列变量间是否存在显著性差异，或者用于检验变量之间是否独立
setwd()
- 查看文件属性，找出路径

判别分析

寻找一个投影方向，把两个群体分得最开的一种方法

样本均值投影的标准化距离最大

√ Fisher ‘s LDA对分布没有要求，但要求不同群体有相同协方差矩阵。

√Fisher ‘s LDA为线性判别方法，还有很多（非线性）判别函数的构造方式。

Fisher分类实际是在比较新观测对象yo与y1、y2间的马氏距离

主成分分析

Standard deviation：标准差，其平方为方差=特征值
Proportoin of Variance：方差贡献率
Cumulative Proportion：累积方差贡献率

PCA = prcomp(data_num , center = T , scale. = T)
- 中心化和归一化所有数值变量，从而平等地考虑各个数值变量的影响

主成分分析函数princomp()的用法：

princomp(x,cor=FALSE,scores=TRUE,…)

x	数据矩阵或数据框
cor	是否用相关阵，默认为协差阵
scores	是否输出成分得分

各大分析方法的基本步骤

回归分析的基本步骤：

1、确定自变量和因变量

2、从样本数据出发确定变量之间的数学关系式,并对回归方程的各个参数进行估计

3、对回归方程进行各种统计检验

4、利用回归方程进行预测

基本思想：

采集样本信息->回归分析（散点图）->回归方程->回归方程的显著性检验->对现实进行预测与控制

自变量筛选：

Logistic

family = binomial 指定了使用二项逻辑回归模型来拟合数据

D-W检验：

一种检验序列自相关的方法

多重共线性检验：

VIF>5，多重共线

hp wt

1.766625 1.766625

分析：方差膨胀因子较小，无多重共线性。

期末考试题型大多都是作业上的（难受至极，因为通宵复习了一晚上的ppt……选择>>努力）

我来简单的复盘一下：

一个 r*c 列联表，进行卡方独立性检验时检验统计量的自由度为？
单因素方差分析中，当 p 值小于 0.05 时，可认为？
Q 型聚类统计量是（），R 型聚类统计量是（）
请简述对线性回归系数进行标准化有何用处？
聚类分析的三步核心步骤与核心代码
主成分分析中主成分如何选择
箱型图的解释
SSA、SSB、SST…相关的计算
计算欧式距离与什么距离（忘了）
Fisher判别分析给出混淆矩阵分析（请记得算出判对率和判错率）
相关分析（记得从上到下，从左往右的分析）
最后一道是给出很多数据的的excel文件，请选择部分数据进行研究，给出多元统计分析方法和核心代码

剩下的就记不到了。。祝各位好运！