关于统计检验的一些知识笔记(还需补充)
总览
总的来说,统计检验是为了回答以下几个问题
- 独不独立?
- 如果独立,那么就证明两种处理之间不相关
- 如果不独立,那么就证明两种处理之间相关,则需要继续回答下一个问题
- 它们之间存在怎么样的关联?并继续下一个问题
- 它们之间的这种关联有多大的可信度?
- 它们之间存在怎么样的关联?并继续下一个问题
独不独立?
要检测独不独立,则又要回答几个问题
- 数据之间是连续型还是离散型?
- 如果是离散型(使用卡方检验或者Fisher’s exact test)
- 单因素卡方检验(卡方拟合度检验 chi-square goodness of fit test)
- 多因素卡方检验 (卡方独立性检验 chis-square test of independence)
- 如果是连续型(使用t检验或者wilcox检验)
- 连续型数据且数据分布符合正态分布,那么使用t检验(当然如果组比较多那么就使用ANOVA也就是多重t检验)
- 如果观测对象相互之间独立,比如A1,B1,C1,那么使用普通t检验
- 如果观测对象之间有联系,比如需要对比A1在接受某处理前后的数据,那么使用配对t检验
- 连续型数据但数据不符合正态分布,那么使用wilcox test
- 连续型数据且数据分布符合正态分布,那么使用t检验(当然如果组比较多那么就使用ANOVA也就是多重t检验)
- 如果是离散型(使用卡方检验或者Fisher’s exact test)
卡方检验
#离散型数据
卡方检验用于检测观察到的类别变量的分布是否与期望的不同,也就是期望值和观测值是否有显著差异。首先需要确定零假设:期望值和观测值之间没有差异。那么通过计算得到的假设成立可能性很低就说明期望值和观测值之间有差异(也就是p<0.05)。如果检测样本只受到一种因素而影响分布那么就使用单因素卡方检验,如果是两种或多种就使用多因素卡方检验。df为自由度(单因素=x-1,多因素=(x-1)(y-1))。
例子:判断一个骰子是否被人动了手脚。那么就是要判断骰子的观测值和期望值是否有差距,所以是单因素。
判断男生和女生对于体育喜爱程度(是否喜爱)是否有差异,就是多因素。
t检验
#连续性数据 #组别小于等于2
t检验用于检测两组是否符合同一个正态分布,也就是没有差距(这就是假设前提)。
唯一需要注意的是是否需要使用配对t检验,如果不同组使用的是同一观测对象,那么就需要使用配对t检验。
ANOVA检验 (方差分析)
#连续性数据 #组别大于2 #消除误差 #多重t检验
这里又要分为one-way ANOVA 和 two-way ANOVA 以及多因素方差分析
单因素方差分析:不同职业群体(职业分组大于2)收入的差异。
双因素方差分析:同一学历时,不同性别是否有着网购满意度差异性(x定类数据有两个:学历和性别)。
多因素方差分析:比如研究者测试某新药对于胆固醇水平是否有疗效;研究者共招募72名被试,男女分别为36名,以及男女分别再细分使用新药和普通药物;同时高血压患者对于新药可能有干扰,因而研究者将被试是否患高血压也纳入考虑范畴中。因而最终,X共分为三个,分别是药物(旧药和新药)、性别,是否患高血压;Y为胆固醇水平。
上述三种方法的区别
| X数据类型 | X组别数 | Y数据类型 | 分析方法 |
|---|---|---|---|
| 定类 | 2或更多 | 定量 | 方差分析 |
| 定类 | 2 | 定量 | t检验 |
| 定类 | 任意 | 定类 | 卡方检验 |
什么关联?多大关联?
相关性检验
检验两组数据之间是否具有相关性,如果有,那么是正相关还是负相关,相关强度有多少?
相关系数[-1,1],从极其负相关到极其正相关。并且经过相关性检验还会得到p值来判断结论的可信程度。
