Fisher 精确检验的基本概念与原理

在统计学领域,尤其是在处理分类数据时,Fisher 精确检验是一种至关重要的假设检验方法。它由著名的统计学家罗纳德·费舍尔爵士提出,主要用于分析两个分类变量之间是否存在非随机关联。与卡方检验不同,Fisher 精确检验特别适用于样本量较小或列联表中期望频数较低的情况。其核心思想是,在给定行合计与列合计固定的条件下,计算出现当前观察到的数据(或更极端数据)的精确概率。

该检验基于超几何分布。想象一下,你有一个2x2的列联表,它展示了两个二分变量(例如,治疗组/对照组与有效/无效)的频数分布。Fisher 精确检验会计算所有可能排列的表格的概率,这些表格的行合计和列合计与观察到的表格相同。然后,它将观察到的表格以及所有比它更“极端”(即更偏离独立性假设)的表格的概率相加,这个总和就是p值。如果p值小于预先设定的显著性水平(如0.05),我们就有证据拒绝两个变量独立的原假设。

何时应该选择Fisher精确检验而非卡方检验

选择正确的统计检验对于得出有效结论至关重要。Fisher 精确检验的应用场景有明确的界定,理解这些条件能帮助研究者避免误用。

小样本量的情况

这是Fisher 精确检验最经典和最重要的应用场景。当你的总样本量(N)小于20时,卡方检验的近似性会变得很差,其计算的p值可能不准确。此时,Fisher 精确检验提供的精确p值更为可靠。即便样本量在20到40之间,如果任何单元格的期望频数小于5,许多统计学家也倾向于使用Fisher 精确检验

列联表中存在低期望频数

卡方检验的一个关键前提是,列联表中每个单元格的期望频数不能太小(通常要求至少80%的单元格期望频数大于5,且没有单元格的期望频数小于1)。当数据不满足这个条件时,卡方检验的结果可能失真。Fisher 精确检验没有这个限制,它可以直接处理包含零或很小频数的表格,因此是处理稀疏数据的理想工具。

Fisher 精确检验:何时使用以及如何解读结果

不平衡设计或固定边际总和

在某些实验设计中,行合计或列合计是事先固定的。例如,在病例对照研究中,病例和对照的数量是预先确定的;或者在生物学实验中,处理与对照的样本量是固定的。Fisher 精确检验的数学模型正是基于边际总和固定的假设,因此它天生适合此类设计,能给出条件性的精确推断。

如何逐步解读Fisher精确检验的结果

正确解读Fisher 精确检验的结果,需要遵循一个清晰的步骤,从理解原假设到评估效应大小。

第一步:明确原假设与备择假设

在进行检验之前,必须清楚假设的内容。对于2x2列联表:

  • 原假设(H0):两个变量是独立的,即一个变量的分类与另一个变量的分类无关。
  • 备择假设(H1):两个变量是相关的,存在某种关联。

例如,在研究一种新药时,H0可能是“治疗效果与使用新药或安慰剂无关”。

第二步:关注核心输出——p值

统计软件(如R、SPSS、Python的SciPy库)运行Fisher 精确检验后,会输出一个精确的p值。这个p值的解读是:

  • 如果p值很小(例如 < 0.05),意味着在变量独立的假设下,观察到当前数据(或更极端数据)的概率很低。这构成了拒绝原假设的证据,支持变量之间存在统计显著的关联。
  • 如果p值较大(例如> 0.05),则没有足够的证据拒绝原假设,但不能证明变量独立。

需要注意的是,Fisher 精确检验默认提供的是单侧检验的p值(检验关联的方向性)。大多数软件也会提供双侧检验的p值,它检验的是是否存在任何方向的关联,这是在探索性分析中最常用的选项。

第三步:结合比值比评估关联强度与方向

p值只告诉我们关联是否“显著”,但并未量化关联有多强,以及方向如何。因此,解读Fisher精确检验结果时,必须同时报告并解释比值比

  • 计算比值比:对于2x2表格(a, b; c, d),比值比 = (a*d) / (b*c)。它反映了某事件在一组中发生的几率是另一组的多少倍。
  • 解读
    • OR = 1:两组几率相等,无关联。
    • OR> 1:第一行(或第一列)所代表的事件在第一个分组中发生的几率更高。
    • OR < 1:第一行(或第一列)所代表的事件在第一个分组中发生的几率更低。

例如,在新药试验中,若“有效”相对于“无效”的比值比(新药组 vs 安慰剂组)为4.0,且p值显著,则意味着新药有效的几率是安慰剂的4倍。

第四步:报告置信区间

一个完整的报告还应包括比值比的置信区间(通常是95% CI)。置信区间提供了关联强度的估计范围。如果区间包含1,即使点估计的OR很大,也可能在统计上不显著(这与p值> 0.05一致)。一个较宽的置信区间表明估计精度不足,通常与样本量小有关。

实际应用案例演示

为了更直观地理解,我们来看一个医学研究中的经典案例。

案例:新药副作用研究

假设研究者测试一种新药,想了解它是否与某种罕见副作用有关。他们收集了以下小样本数据:

  • 治疗组(20人):3人出现副作用,17人未出现。
  • 对照组(20人):0人出现副作用,20人未出现。

列联表如下:

Fisher 精确检验:何时使用以及如何解读结果

出现副作用未出现副作用合计
治疗组31720
对照组02020
合计33740

由于样本量较小(N=40),且有一个单元格的期望频数(治疗组出现副作用的期望值 = (20*3)/40 = 1.5)小于5,因此选择Fisher 精确检验是合适的。

使用统计软件进行分析:

  • 双侧p值:假设我们得到 p = 0.23。
  • 比值比计算:OR = (3*20) / (17*0)。这里出现了除数为零的情况,通常软件会采用Haldane-Anscombe校正(例如给每个单元格加0.5)来计算一个有限的估计值。校正后,OR可能是一个很大的数值,但其置信区间会非常宽。

结果解读:尽管治疗组出现了3例副作用而对照组没有,但p值为0.23> 0.05。这意味着,在当前样本量下,没有足够的统计证据表明新药与副作用的增加有关。比值比虽然看似很大,但其95%置信区间很可能包含了1(例如,0.9 到 无穷大),这进一步支持了“证据不足”的结论。这个案例生动地展示了小样本研究的局限性:即使观察到了差异,也可能由于随机波动而无法达到统计显著。

Fisher精确检验的优势与局限性

如同所有统计方法,Fisher 精确检验也有其适用的范围和需要注意的地方。

主要优势

  • 精确性:它为小样本提供了精确的p值,不依赖于大样本近似,结果更可靠。
  • 适用于稀疏数据