漫谈统计之集中趋势和离散趋势(上)

讲师风采
吴庆军
副教授
讲师简介:
曲阜师范大学管理学院副教授
视频简介:
统计学和数据是紧密相连,而数据主要存在有三种:集中趋势、离散趋势和分布情况。本次主要讲的是集中趋势和离散趋势的概念和表现形式。他们都是针对于频数表中的频数的分布特征来划分的,并用实例阐述了他们的区别。
发布评论
全部评论
段落信息
统计学是和数据打交道的科学,那么数据有哪些特征呢,数据一般具有集中的趋势、离散的趋势以及它的一些分布的形态。因此呢,我们这一讲主要来研究数据分布的集中趋势、离散趋势和分布形状。那么集中趋势它是如何测度的,首先我们讲一个实际的例子,比如说在农村我们要扬谷物,那么往上抛谷物的时候,要把这些麦粒也好、或者是米粒也好往上洒,那么下面放一个筐子,往上洒的过程当中,就会绝大多数的麦粒或者谷粒它就落入筐子当中,少部分落入筐外。那么也就是说在自然界当中,有数据向中间值集中的这种趋势,那么这是一种自然的现象。那么我们如何来测度这种集中趋势,不同的指标我们有不同的测量方法。首先我们介绍一种重数,什么叫重数,从它的自面我们可以看出,一组数据当中出现次数最多的那个变量,我们就把它叫重数,那么是不是所有的数据都具有重数,未必,因为比如说10、5、9、12、6、8这一足数,没有一个重数,大家都出现的频数都是一样的。那么比如说6、5、9、8、5、5,这一组数呢,5出现了3次,因此5就是重数,而且只有一个。还有一组数,你比如说25、28、28、36、42、42、38,这时候25、28和42各出现2次,那么也就是说它有2个重数。换句话说,一组数据当中,可能没有重数,也可能只有一个重数,也可能没有重数。 那么重数有哪些特点,首先它不受极端值的影响,就是说在这一组数当中出现最多的数,不会因为你来了一个最大值或者来了一个最小值而发生改变,因为大多数,只有大多数的值才是重数。那么它一个缺点就是可能没有重数和多个重数。在哲学当中或者在生活当中,少数服从多数就是重数的一个应用。那么这种情况下重数,我们主要用为分类数据或者是顺序数据,当然也可以用在数值数据当中。比如说在对家庭,比如说某市家庭对某房产的评价的频数分布图,有不满意的有24户,占8%,非常不满意的,满意的有108户,占总数的36%,一般的有93户,占总数的31%,满意的呢有45户,占总数的15%,非常不满意的呢有30户,占总数的10%,那么问多数人的意见是什么呢,当然是不满意,总数是108户,占总数的36%。因此,不满意就是这一组数据的重数。所以重数可以是一个数值,也可以是文字型的一个量。 那么比如说我们对于不同的饮料的品牌的喜好程度的频数分布,我们可以做出来,某群体当中喜欢可口可乐的饮料的人数有15人,占30%,旭日升冰茶是11户,占22%,可口可乐9人占18%,汇源果枝6人占12%,露露9个人占18%,那么重数是多少呢,就是可口可乐,因为它占的比重是最大的30%,所以可口可乐就是这一组的重数,这个重数是分类数据。我们在Excel当中,我们有相应的函数MODE可以用来算重数。那么还有一类表示集中趋势的指标,叫做中位数,中位数首先先排序,排到中间的那个位置的数就是中位数,我们小的时候,排座位首先老师让我们从小到大个排开,然后呢,中间个子的那个人的身高就是中位数。中位数的优点,也是不受极端值的影响,最大最小值对于它没有什么影响。 那么它的一个比较好的优点,就是说各变量值到中位数的绝对值的和是最小的,就是说所有数到中位数的和是最小值,那么我们所说的中庸之道,实际上就是中位数的一个应用。那么讲到中位数之后,我们看一下还有哪些数据可以代表相应的集中趋势。刚才所说的中位数和重数,实际上都是从位置的角度来考察集中趋势的。那么比如说我刚才说的中位数的一个案例,有10个家庭的人员月收入,比如说有600,按照排序有600、660、750、780、850、960、1080、1250、1500、1630、2000,那么这数的中位数是多少,中位数应该是,它一共有10个数,它的中位数的位置,应该是2分之N+1,就是2分之10+1就是5.5,它的对应的位次又是第5位数和第6位数的平均值,就是960加860除以2是1020。那么如果这个家庭有9个家庭,1到9,第1个家庭是它的最初号是750,第2个是780,第3个是850,第4个家庭是960,第5个是1080,第6个家庭是1250,第7个家庭是1500,第8个家庭是1630,第9个家庭是2000,这是首先我们找到中位数的位置,那么它应该是2分之N+1,就是2分之9+1,第5位,就是第5个家庭所对应的数,就是1080,就是它的中位数。 那么对于分组数据,比如说定序数据,那么它怎么计算中位数,首先比如说我们按上一个例子的,对于满意程度的回答,非常不满意它是24户,不满意108户,一般意见93户,满意的是45户,非常满意是30户,问它的中位数是多少。那么总数是300户,所以中间位置大概应该是在2分之300加1,就是150.5,我们看出在不满意的时候,它累积频数是132,到了一般的时候是225,因此第150位的位数,应该在一般这个组当中,因为一般就是它的

全文文稿

收藏说明: