您的位置:主页 > 六西格玛专栏 >
六西格玛为何需要正态分布和方差齐性的检验?
 
很多时候,我们都需要使用从单一样本中获取的样本信息利用统计推断的方法来估计总体的参数信息,这是一种非常有用的统计方法,但在执行相关推断之前,我们需要验证一些假定,任何一条假定若是不能满足,则得到的统计结论就是无效的。

通常数据的分析假设为:随机数据,独立的,正态分布,等方差,稳定,当然,测量系统的精确性和准确性也是要满足测量要求的。
 
什么是正态分布假定?

在再进行统计分析之前,需要识别出数据的分布,否则,错误的统计检验将带来一定的风险,许多统计方法在执行之前嘉定数据服从正态分布,比如,单/双样本-T检验,过程能力分析,I-MR和方差分析等。如果数据不满足正态分布,则需要使用非参数方法,利用中位数进行检验而不是均值,也可以使用BOX-COX转换或JOHNSON变换的方法把数据转换为正态分布。

但是需要知道许多统计工具虽然假定数据满足正态但实际上当样本量大于15或20的时候就不需要正态分布了,但是如果样本量小于15且数据不满足正态分布,P值得数据就是错误的,相关统计结论就需要特别注意了。

Minitab中,有许多方法可以判断数据的分布是否满足正态,下面我们来了解两种比较常用的方法:正态检验和图形化汇总

Minitab的正态检验将生成概率图和执行单样本假设检验来判断数据的分布是否来自满足正态的分布总体,原假设是数据满足正态分布而备择假设是不满足
 
\
 
选择 统计—基本统计量—正态检验

下面我们先看看数据的正态检验
  • 图形中的数据点应该在直线的附近,如果有些数据点在尾巴上远离直线也可以接受,但前提条件是必须在置信区间内才可以。
  • 图形中的数据点应该靠近你和分布直线且通过“粗笔检验”,用一只“粗笔”盖在拟合直线上,如果铅笔能盖住所有数据点,则数据满足正态分布
  • 与之相连的Anderson-Darling检验统计量应该很小
  • P值应该大于选择的Alpha风险(通常取0.05或0.1)
Anderson-Darling统计量用来衡量数据点远离拟合直线的程度,是每个数据点到直线距离的平方和,对于一组给定的数据分布来说,分布拟合的越好,该值就会越小。
\
Minitab描述性统计输出通过图形化汇总直观的展示数据分布和计算了Anderson-Darling数值和P值,图形化汇总输出四张图形:带有正态拟合线的直方图,箱线图,均值和中位数的95%置信区间图。
\

接下来分析图形化汇总中的正态检验:
数据通过直方图展示出来,查看图形的分布行形状(对称还是有偏度),数据在图形中是如何延伸的,且需要查看是否存在异常数据

与之相关的Anderson-Darling统计量数值应该很小
P值应该大于选择的Alpha风险(通常取0.05或0.1)

对于一些流程来说,比如时间和循环周期的数据,数据永远不会满足正态分布的,不满足正态分布的数据对于一些统计方法是适用的,但需要明确数据需要满足一些特殊需求。

什么是等方差假定?

通常,方差是指数据的分布离散程度,统计分析中,比如方差分析(ANOVA)中,嘉定虽然不同的样本数据来自不同均值的抽样总体,它们应该有相同的方差,方差齐性是指不同样本的方差大体相同,如果方差非齐性会影响第一类风险且导致错误的结论,如果比较两个或两个以上样本均值,比如双样本T检验和ANOVA中,如果方差显著有差异将会掩盖掉均值的差异信息并导致错误的结论。

Minitab提供了几种可以执行等方差检验的方法,可以参考Minitab的帮助来决定基于不同的数据类型该选择哪种方法,当然,也可以通过使用Minitab协助来验证该假定(技巧:当使用协助,点击“更多”来获取抽样技巧并且得到Minitab在计算你输出结果时相关重要信息。)

在执行分析之后,检查诊断报告是否存在异常数据或不满足条件的数据(提示:当执行双样本T检验和方差分析时,协助菜单使用了更为保守的方法并且使用的计算方式没有基于方差相等的假定)。需要检查该假定的真实原因
你会花费大量的时间和精力在数据收集和分析上,当你投入所有的工作在分析上时,你一定期望得到正确的结论。如果一些必要的分析若背离了这些假设,你需要更详细的检查。你希望更有置信度的来说明观测到样本之间是否存在差异简单来说仅仅取决于随机性,即使抽样总体确实有差异。

我们通常很容易的将数据收集和数据分析本末倒置,但是聪明的做法应是花费一些时间去了解哪些数据满足了前期的假定条件,这样才能保证分析的准确性。

随机推荐

图文聚集

热门排行

最新文章