22级期末考试题型


一、选择题(10小题,20分)

二、简答题(4小题,20分)

描述某个方法的核心步骤以及R程序、某个方法有何用途

三、计算题(2小题,10分)

计算量简单

四、案例分析题(4小题,40分)

对代码及运行结果解读,这个函数是什么功能?每个参数的解读

分别对应四章内容

五、综合题(1题,10分)

期末复习


  • 在R语言中a[1]就代表着输出第一个元素

  • a <- c(0,1,2) a[c(1,3)]就代表着访问第一个和第三个元素

  • 散点图数目与数据维度平方成正比

  • 方差分析又称F检验 (F test),用于推断多个总体均值有无显著差异

  • F统计量中 F=组间方差(离差平方和/自由度)/组内方差,F值大说明变量之间存在关系

  • 在统计学中,两个分类变量的列联表中的期望频数可以通过以下公式计算:

    • (行合计)*(列合计)/总样本量
  • 卡方独立性检验看p值

  • 研究者通常会对因子载荷矩阵进行旋转,如正交旋转(varimax)或斜交旋转(oblimin),这样可以使得载荷在某个因子上集中,而在其他因子上接近零,从而使得因子的解释更加清晰和易于理解。

  • 单因素方差分析(ANOVA)主要用来比较三个或者更多个样本组的总体均值是否存在显著差异。其基本假设是各组数据来自正态分布,且具有相同的方差。方差分析的核心在于分析组间差异是否显著大于组内差异。

  • 当 p 值小于 0.05 时,意味着我们拒绝零假设(null hypothesis)。在单因素方差分析中,零假设是指所有组的总体均值相等。因此,拒绝这一假设意味着至少有两组的总体均值存在显著差异,但并不意味着所有组的总体均值都不相等。

  • factor()函数用于创建因子变量,非数值型变量(类别变量和顺序变量)在R语言中称为因子,因子型变量内的所有为非重复值

  • glm() 函数是R语言中用于拟合广义线性模型(Generalized Linear Models, GLMs)的函数。广义线性模型是线性模型的一种扩展,适用于不满足正态分布假设的数据,比如二项分布(逻辑回归)、泊松分布(泊松回归)

  • 考虑到“Survived”是一个二分类变量,我们可以使用逻辑回归(Logistic Regression)来建立模型。逻辑回归适用于预测二元结果(是/否,生还/未生还)。

  • 逻辑回归是一种用于处理二元结果的统计方法,通常用于预测某事件发生的概率。在R语言中,逻辑回归可以使用glm函数来实现,其中family = binomial表示二项分布。

  • 泊松逻辑回归通常用于处理计数数据,比如事件发生的次数。

  • 协方差矩阵的用途:

    • 刻画数据整体离散型
    • 定义统计距离
  • rossTable( )—gmodels包

    • 计算(行、列、单元格)的百分比

    • 指定小数位数

    • 进行卡方、Fisher和McNemar独立性检验

    • 计算期望和(皮尔逊、标准化、调整的标准化)残差

    • 将缺失值作为一种有效值

    • 进行行和列标题的标注

    • 生成SAS或SPSS风格的输出

  • chisq.test( )

    • 检验列联表行列变量间是否存在显著性差异,或者用于检验变量之间是否独立
  • setwd()

    • 查看文件属性,找出路径

判别分析

寻找一个投影方向,把两个群体分得最开的一种方法

样本均值投影的标准化距离最大

√ Fisher ‘s LDA对分布没有要求,但要求不同群体有相同协方差矩阵。

√Fisher ‘s LDA为线性判别方法,还有很多(非线性)判别函数的构造方式。

Fisher分类实际是在比较新观测对象yo与y1、y2间的马氏距离

主成分分析

Standard deviation:标准差,其平方为方差=特征值
Proportoin of Variance:方差贡献率
Cumulative Proportion:累积方差贡献率

  • PCA = prcomp(data_num , center = T , scale. = T)
    • 中心化和归一化所有数值变量,从而平等地考虑各个数值变量的影响

主成分分析函数princomp()的用法:

princomp(x,cor=FALSE,scores=TRUE,…)

x 数据矩阵或数据框
cor 是否用相关阵,默认为协差阵
scores 是否输出成分得分

各大分析方法的基本步骤

回归分析的基本步骤:

1、确定自变量和因变量

2、从样本数据出发确定变量之间的数学关系式,并对回归方程的各个参数进行估计

3、对回归方程进行各种统计检验

4、利用回归方程进行预测

基本思想:

采集样本信息->回归分析(散点图)->回归方程->回归方程的显著性检验->对现实进行预测与控制

自变量筛选:



Logistic

family = binomial 指定了使用二项逻辑回归模型来拟合数据

D-W检验:

一种检验序列自相关的方法

多重共线性检验:

VIF>5,多重共线

​ hp wt

1.766625 1.766625

分析:方差膨胀因子较小,无多重共线性。


期末考试题型大多都是作业上的(难受至极,因为通宵复习了一晚上的ppt……选择>>努力)

我来简单的复盘一下:

  • 一个 r*c 列联表,进行卡方独立性检验时检验统计量的自由度为?

  • 单因素方差分析中,当 p 值小于 0.05 时,可认为?

  • Q 型聚类统计量是( ),R 型聚类统计量是( )

  • 请简述对线性回归系数进行标准化有何用处?

  • 聚类分析的三步核心步骤与核心代码

  • 主成分分析中主成分如何选择

  • 箱型图的解释

  • SSA、SSB、SST…相关的计算

  • 计算欧式距离与什么距离(忘了)

  • Fisher判别分析给出混淆矩阵分析(请记得算出判对率和判错率)

  • 相关分析(记得从上到下,从左往右的分析)

  • 最后一道是给出很多数据的的excel文件,请选择部分数据进行研究,给出多元统计分析方法和核心代码

剩下的就记不到了。。祝各位好运!