
在统计分析中,当我们比较三个或更多独立组的均值时,如果数据不满足参数检验(如anova)的假设(例如,数据不服从正态分布或方差不齐),我们通常会选择非参数方法。kruskal-wallis h检验就是这样一种用于比较多组中位数是否存在显著差异的非参数检验。
然而,Kruskal-Wallis检验只能告诉我们至少有一组与其他组存在显著差异,但不能指出具体是哪几组之间存在差异。为了进一步探究组间的具体差异,我们需要进行事后(Post Hoc)多重比较。Dunn's Post Hoc检验是Kruskal-Wallis检验后常用的一种非参数事后检验,它通过比较各组的平均秩次来评估它们之间的差异,并通常会进行多重比较校正以控制第一类错误率(Type I error rate)。
在使用Python的scikit_posthocs库进行Dunn's Post Hoc检验时,有时会观察到一种有趣的现象:不同组对之间的p值可能完全相同。考虑以下示例代码,它使用了一个简单的数据集来演示Kruskal-Wallis检验和Dunn's检验:
import pandas as pd
from scipy.stats import kruskal
from scikit_posthocs import posthoc_dunn
# 原始数据集
data = {
'Group': ['A', 'A', 'A', 'B', 'B', 'B', 'C', 'C', 'C'],
'Values': [10, 15, 12, 18, 20, 22, 25, 28, 30]
}
df = pd.DataFrame(data)
# 执行Kruskal-Wallis检验
statistic, p_value_kruskal = kruskal(df[df['Group'] == 'A']['Values'],
df[df['Group'] == 'B']['Values'],
df[df['Group'] == 'C']['Values'])
print(f"Kruskal-Wallis p-value: {p_value_kruskal:.6f}")
# 执行Dunn's Post Hoc检验,使用Holm校正
posthoc_results = posthoc_dunn(df, val_col='Values', group_col='Group', p_adjust='holm')
print("\nDunn's Test Results:")
print(posthoc_results)运行上述代码,我们可能会得到如下Dunn's Test结果:
Kruskal-Wallis p-value: 0.038990
Dunn's Test Results:
A B C
A 1.000000 0.359425 0.021871
B 0.359425 1.000000 0.359425
C 0.021871 0.359425 1.000000在这个结果中,我们注意到比较A与B的p值(0.359425)与比较B与C的p值(0.359425)是完全相同的。这可能会让初学者感到困惑,误以为是计算错误。
实际上,这种p值对称性并非错误,而是Dunn's Test计算机制的直接体现。Dunn's Test是一种非参数检验,它不直接使用原始数据值进行计算,而是基于数据的秩次(ranks)。其核心原理如下:
当数据集中的秩次模式具有某种对称性时,就会出现p值对称的现象。在上面的例子中,原始数据是[10, 15, 12] for A, [18, 20, 22] for B, [25, 28, 30] for C。如果我们将所有数据合并并排序,你会发现组A、B、C的数值是连续递增的,且每组内部的相对大小关系也保持一致。这种“秩次距离”的模式(例如,从A到B的秩次变化模式与从B到C的秩次变化模式相似)导致了计算出的p值相同。
简单来说,Dunn's Test关心的是数据点的相对位置(秩次),而不是它们的绝对数值大小。如果两个不同的组对(如A vs B和B vs C)在秩次上的“距离”或差异模式是相同的,那么它们将产生相同的p值。
为了进一步证明Dunn's Test是基于秩次而非原始值,我们可以修改数据集,使其原始值发生变化,但关键在于改变其秩次模式。
import pandas as pd
from scipy.stats import kruskal
from scikit_posthocs import posthoc_dunn
# 修改后的数据集:交换了A组和B组的一个值,改变了秩次模式
data_modified = {
'Group': ['A', 'A', 'A', 'B', 'B', 'B', 'C', 'C', 'C'],
'Values': [10, 18, 12, 15, 20, 22, 25, 28, 30] # 原始A组的15与B组的18互换
}
df_modified = pd.DataFrame(data_modified)
# 执行Kruskal-Wallis检验
statistic, p_value_kruskal_modified = kruskal(df_modified[df_modified['Group'] == 'A']['Values'],
df_modified[df_modified['Group'] == 'B']['Values'],
df_modified[df_modified['Group'] == 'C']['Values'])
print(f"Modified Kruskal-Wallis p-value: {p_value_kruskal_modified:.6f}")
# 执行Dunn's Post Hoc检验,使用Holm校正
posthoc_results_modified = posthoc_dunn(df_modified, val_col='Values', group_col='Group', p_adjust='holm')
print("\nModified Dunn's Test Results:")
print(posthoc_results_modified)运行上述修改后的代码,我们将得到不同的Dunn's Test结果:
Modified Kruskal-Wallis p-value: 0.038990
Modified Dunn's Test Results:
A B C
A 1.000000 0.296718 0.033810
B 0.296718 1.000000 0.272074
C 0.033810 0.272074 1.000000可以看到,在修改后的数据集中,A与B的p值(0.296718)与B与C的p值(0.272074)不再相同。这是因为我们通过交换两个值,改变了整体数据的秩次排列,进而改变了组间秩次模式的“距离”,导致了不同的p值。
进一步的例子: 即使原始数值的绝对差异非常大,只要它们的秩次模式与原始示例相同,Dunn's Test的结果也会与原始示例相同。例如,使用数据[0, 1, 2, 15, 20, 22, 250, 280, 300](分别属于A, B, C组),其秩次模式与初始示例完全一致,因此Dunn's Test也会返回与初始示例相同的p值对称结果。
总之,Dunn's Post Hoc检验通过比较各组的秩次来评估差异。当观察到p值对称时,这通常意味着被比较的组对在整体数据中的秩次分布模式具有相似性。理解这一底层原理有助于研究者更准确地解读统计结果,避免不必要的困惑。
以上就是Dunn's Post Hoc检验P值对称性解析:理解秩次计算原理的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号