您的位置:主页 > 六西格玛专栏 >

第三章 统计资料的综合
 

第二章主要介绍了统计资料的整理,得到分布表和统计图等。这当然已能使我们对一份统计资料(数据)有概括的了解。但为了更进一步综合地说明统计资料的特征,以及为了与类似问题进行比较等,有必要用一些数值将资料的特征表示出来,这样的数值称为特征数。我们在本章只考虑单变量的问题,将介绍三类特征数:表示集中位置的特征数,表示变异(分散)程度的特征数和表示偏倚程度的特征数。

3.1表示集中位的待征数

31.1平均数

  1. 算术平均数( Arith metic average)

(1)定叉

组n个观测值x1x2…,xa的算术平均数,定义为

 

 

 

当然,各组中数值都用中点值代替了,所得结果只能是近似的。因此,在求算术平均数时应尽可能用分组前的原始数据。

[例 3.1] 某学院有一年级学生 200 人,二年级学生 150 人,三年级学生 100 人,四年级学生 200人 。某日学院召开全院大会,一年级学生缺席 4%,二年级学生缺席 6%,三年级学生缺席 5%,四年级学生缺席 8%,试问全院学生缺席百分之几。

 

 

 

 

2. 几何平均数(Geometric Mean)

在数据为环比类型的问题中,算术平均数是不适用的。例如表 3-3 是天津市工农业总产值在 “六五”期间的逐年增长率,如求该期间平均增长率,算术平均数是不恰当的。几何平均数可以解决这个问题。

 

(1)定义:

一组 n 个数据 r1,r2 ,…,rn 的几何平均数 G 定义为:

 

在上例中,令 r1,r2 ,…,r5依次为 105.9,106.9,108.2,111.6,115.1,于是:

 

(2)几何平均数性质:

 

 

3. 调和平数

当数据是相对变化率,求平均数时,有时算术平均数也不恰当。

例如甲乙两地相距 120 公里,某人乘车往返甲乙两地之间,去时速度为每小时20 公里,回来时速度 为每小时 30 公里,若求平均速度,这时用算术平均数(20+30)/2 是不对的,但调和平均数可解决此类问题。

(1)定义:

 

(2)性质:

设 R 表示两个变量 M, N 的相对变化率

 

 

几何平均数和调和平均数都只在特定问题中适用,选用时要注意。当数据中出现零和负数时也不能求几何平均数和调和平均数。

3.1.2 众数(Mode)

算术平均数表示了集中位置特征,它照顾到每一个值,但它不见得是出现次数最多的值(甚至也可能不是观测值中的一个)。所以有必要研究表示集中位置的其它的特征数。

定义:对于有频数分布的变量,它的众数指频数最大的变量的值。

 

对于已分组且等组距的频数分布,根据最大频数,可求得众数所在组。根据众数定义,可知众数不唯一。

3.1.3 中位数(Median)

算术平均数作为集中位置的特征还有一缺点,就是受观测值中极端值的影响很大,而一组观测值中的极端值常常没有代表性。中位数将避免这种影响。

  1. 定义:

一组 n 个观测值按数值大小排列如 x1,x2 ,…,xn,处于中央位置的值称为中位数,以示,即

 

 

 

3.1.4 百分位数( Percentile)

  1. 定义:一组 n 个观测值按数值大小排列如 x1,x2 ,…,xn,处于 p%位置的值称第 p 百分位数。

中位数是第 50 百分位数。

第 25 百分位数又称第一个四分位数(First Quartile),用 Q1 表示;第 50 百分位数又称第二个四分位数(Second Quartile),用 Q2 表示;第 75 百分位数又称第三个四分位数(Third Quartile),用 Q3 表示。若求得第 p 百分位数为小数,可完整为整数。

分位数是用于衡量数据的位置的量度,但它所衡量的,不一定是中心位置。百分位数提供了有关各数据项如何在最小值与最大值之间分布的信息。对于无大量重复的数据,第 p 百分位数将它分为两个部分。大约有 p%的数据项的值比第 p 百分位数小;而大约有(100-p)%的数据项的值比第 p 百分位数大。对第 p 百分位数,严格的定义如下。

第 p 百分位数是这样一个值,它使得至少有 p%的数据项小于或等于这个值,且至少有(100-p)%的数据项大于或等于这个值。

高等院校的入学考试成绩经常以百分位数的形式报告。比如,假设某个考生在入学考试中的语文部分的原始分数为 54 分。相对于参加同一考试的其他学生来说,他的成绩如何并不容易知道。但是如果原始分数 54 分恰好对应的是第 70 百分位数,我们就能知道大约 70%的学生的考分比他低,而约 30%的学生考分比他高。

下面的步骤来说明如何计算第 p 百分位数。

第 1 步:以递增顺序排列原始数据(即从小到大排列)。

第 2 步:计算指数 i=np%

第 3 步:(l)若 i 不是整数,将 i 向上取整。大于 i 的毗邻整数即为第 p 百分位数的位置。

(2) 若 i 是整数,则第 p 百分位数是第 i 项与第(i+l)项数据的平均值。

3.1.5 四分位数

人们经常会将数据划分为 4 个部分,每一个部分大约包含有 1/4 即 25%的数据项。这种划分的临界点即为四分位数。它们定义如下。

Q1=第 1 四分位数,即第 25 百分位数

Q2=第 2 四分位数,即第 50 百分位数

Q3=第 3 四分位数,即第 75 百分位数

下面是按递增顺序排列的起始月薪数据。Q2 即第 2 四分位数(中位数),已被确知为2405。

2210 2255 2350 2380 2380 2390 2420 2440 2450 2550 2630 2825

计算 Q1 和 Q3 需要用到计算第 25 百分位数和第 75 百分位数的方法。它们的计算如下:

对 Q1: i=(p/100)×n=(25/100)×12=3

由于 i 为整数,由第 3 步的(2)可知,第 1 四分位数即第 25 百分位数即为第 3 项与第 4 项的平均值。所以 Q1=(2350+2380)/2=2365。

对 Q3: i=(p/100)×n=(75/100)×12=9

同样 i 为整数,由第 3 步的(2)可知,第 3 四分位数即第 75 百分位数即为第 9 项与第 10项的平均值。所以 Q3=(2450+2550)/2 =2500。

如下所示,四分位数将 12 个数据分为了 4 个部分,每个部分含有 25%的数据项。

2210 2255 2350 | 2380 2380 2390 | 2420 2440 2450 | 2550 2630 2825

Q1=2365 Q2=2405 Q3=2500

(中位数)

我们已将四分位数分别定义为第 25,50,75 百分位数。因此,四分位数的计算方法与其他百分位数的计算方法是相同的。但是在计算四分位数时有些方法的约定是不同的;而计算出来的值也会因这些约定的不同而稍有差异。尽管如此,无论采用何种计算过程,计算四分位数的目的都 是将数据划分为大致相等的 4 个部分。

3.2 表示变异(分散)程度的特征数

一组数据,即对变量的一组观测值,除用算术平均数等表示它的集中位置的特征外,各观测值的相互之间的变异情况,或说分散情况,也是一组数据的一个重要特征。如果这组数据是产品质量检查的结果,那么数据的变异情况说明生产是否稳定;如果数据是测量的结果,那么变异的情况说明测量方法是否正确、仪器是否精密;如果数据是学生的成绩,那么变异的情况说明成绩是否整齐(而不是高低)。

 

 

 

 

3.3 表示偏倚情况或程度的特征数

偏倚性是表示各观测值的分布的不对称情况或程度的。

3.3.1 比较众数、中位数和算术平均数的相对位置

图 3-2 举出了对称的、具有左偏态(负偏态)和右偏态(正偏态)的频数分布的例子。注意到它们的特点是:①对称的分布的众数、中位数和算术平均数相同;②具有偏倚性的分布,算术平均数突出在外,偏向分布的尾端,而中位数则介于众数与算术平均数之间。

 

3.3.2 定量地描述倚性,常用的两个公式

1.Pearson 偏倚系数

 

3.4 五数概括法

 

3.5 盒形图

盒形图实际上是以图形来概括数据。我们将盒形图延至这一章才讲是因为它的关键是计算中位数和四分位数 Q2 和 Q3。此外还将用到四分位数间距 IQR=Q3-Q1。 图 3-3 是月薪数据的盒形图。

盒形图的画法步骤如下:

(1) 画一个方盒,其边界恰好是第 1 和第 3 四分位数。对于上述的月薪数据,Q1=2365,Q3=2500。

这个方盒包含了中间的 50%的数据。

(2) 在方盒上中位数的位置画一条垂线(对月薪数据,中位数为 2405)。因此中位数将数

据分为相等的两个部分。

(3)利用四分位数间距 IQR=Q3-Q1,来设定界限。盒形图的界限定于低于 Q1 以下 1.5 个IQR 和高于 Q3 以上 1.5 个 IQR 的位置。上述的 月薪数据中,IQR=Q3-Q1=2500-2365=135。因此,上、下限分别为:2365-1.5×135=2162.5 和 2500+1.5×135=2702.5,上、下限以外的数值作为异常值。

(4)在图 3-4 中的横线叫做须线(whisker),须线从方盒的边线出发,直至在上、下限之内的最大值和最小值。对于月薪数据,其须线止于 2210 和 2630。

(5)最后,任一异常值的位置以符号“*”标出。在图 3-3 中可以看到一个异常值—2825。在图 3-3 中,我们用一些竖线显示上、下限的位置。这些竖线用来表明对于月薪数据,上、下限是如何计算出来的,但是一般情况下它们并不在盒形图上画出。在图 3-4 中显示了正常情况下的月薪数据盒形图的外观。

 

张驰咨询精选课程推送:

推荐网站:

张驰咨询培训

六西格玛、DFSS、精益六西格玛》内容每周定期更新内容,敬请关注!


张驰咨询提供精益六西格玛项目辅导、公开课培训、企业内训,绿带黑带培训及项目辅导咨询。

企业内训:人数控制在30人以内,讲解、讨论、游戏结合项目运作,财务收益承诺;  

企业咨询:项目辅导+理论培训;具体详情可致电咨询!

张驰咨询公司官网http://www.zc6sigma.com(复制网址到浏览器打开)

温馨提示:六西格玛黑带培训上海、深圳、北京地区接受报名,详情致电咨询!

联系电话:17722597309;0755-86372259。

 

随机推荐

图文聚集

热门排行

最新文章