漫谈统计之集中趋势和离散趋势(下)

讲师风采
吴庆军
副教授
讲师简介:
曲阜师范大学管理学院副教授
视频简介:
统计学中的集中趋势和离散趋势的表现形态中,中位数、平均数和众数的初步意义和表现形态,以及用具体数字实例阐述它们之间的差异和联系,在生活和工作中,我们是如何运用的,在频数分布图中如何更好地展示集中趋势和离散趋势,让我们更加客观生动的理解图中内容反应的总体特征。
发布评论
全部评论
段落信息
我们前面学的重数、中位数和均值之间,它实际上是有关系的,对于对数分布来说,这三者实际上合而为一,而对于偏态分布,如果是左偏分布,它的均值在左边,重数在右边,对于右偏分布,它的重数在左边,均值在右边。那么为什么好像看出来峰值在左边的,为什么我们这个叫右偏分布,实际上左右偏主要看它的重心,重心是什么意思,比如说一个物体有重心和几何中心,重心往哪偏,它就要往哪偏,那么在这个图形当中,均值实际上就是这一组数据的重心,所以均值在哪它就往哪偏,比如说左偏分布,均值在左就是左偏分布,这时候均值小于中位数,小于重数,那么均值在右边,重数小于中位数,小于均值,这时候就是右偏分布。那么我们学到的数据的集中趋势,实际上我们刚刚讲了有重数、中位数、四分为位数,有算术平均数,有调和平均数、几何平均数、中位数等等。那么这些用到哪些场合,我们知道重数一般用在定类数据,也就是定类数据一般用重数。而定义数据我们可以采用中位数、四分位数和重数,定距数据我们可以采用均值、重数、中位数和四分位数。定比数据我们所有的数据都能用。这里头涉及到四类数据,第一类数据指这一类数据只能分类不能排序,第二类数据既能分类又能排序,但是不能计算数值,定距数据和定比数据都是数值型数据,其中定距数据它没有绝对零点,它只能加减,不能乘除。而定比数据有决定零点,它能够加减乘除,也就是说有绝对零点的数据,就是说你像这个温度,零摄氏度表明它不是没有温度,而是有一定的含义,冰水混合物的温度。像海拔是零米,不标是没有海拔,而是表达它的海平面的高度。因此没有绝对临度就是意味着,绝对零点就意味着,它这个零就是没有意义,有绝对零点就是说它有意义。所以我们知道这个温度和海拔这样的数值,属于定距数据,它没有绝对零点。而像长度、重量它有绝对零点,这样的话我们就能够算出来,这些数据的分布形态。 在Excel当中也有众多的函数,比如说重数在Excel当中用Multiplicity可以表述它,中位数median,切为中值、四分位数、简单平均数、加权、调和平均数和几何平均数,我们都用Excel可以方便的可以算出来。最后我们把这个测度集中趋势的指标,我们把它总结一下,平均指标我们分为位置平均数和数值平均数,位数平均数我们分为重数和中位数,数值平均数,我们分为算术平均数,调和平均数和几何平均数,那么这就是我们研究集中趋势的所有的指标,它能够把整个的数据的集中趋势进行完整的进行概括,今天我们对于这个集中趋势的指标的讲解,到此结束。 刚才我们学习了数据的集中趋势,那么数据除了有集中趋势之外,还有离散趋势,描述离散趋势的指标,我们把它叫变异指标,它的作用主要反映变量分布的离散趋势,第二个呢,可以反映均值的代表性的大小。第三,可以反映均值的稳定性、均匀性、事件的风险性。你比如说,一个车辆在行驶过程当中,平均速度就是它的均值,但是这个速度忽快忽慢,它的波动,我们就是叫它离散指标,那么如果在一个比较颠簸的路上行使,速度忽快忽慢,这个车是容易出事故的。所以我们希望,这个车应该是均匀稳速的行驶是比较安全的。那么我们的经济发展也是如此,经济增速如果能够持续的一个比较高的稳定的速度发展,那么这个速度就是比较好的一个速度,就是我们所说的又好又快发展。那么如果一会大涨大落,某一年一下增长20%,另外一年突然负的百分之多少,这样的话就是经济的损害非常大,那么在我们改革开放之前,这个情况时有发生,在改革开放之后,它的稳定性是逐渐增强了。 所以描述一个数据的变异指标是非常重要的,那么当数据的离散程度越大、数据的平均的代表性也就越小,就是说在一个群体当中,我们要选一个代表来代表大家的意见,如果大家争论不休、差异很大,那么这个代表他很难代表所有人的意见,如果大家的意见比较集中,那么这个意见差异不大,那么这个代表的代表性也就比较强。衡量数据离散趋势的指标,有极差、四分位差、标准差、平均差、离散系数等。那么我们首先来看一下极差,极差是什么意思呢,极差也叫全距,就是用一个数据的最大值减去最小值,如果对于一个分组数据来说,我们可以用这一组的最高的上限,减去最低组的下限来表示。那么极差,我们说它的优点,就是比较简单、容易理解、容易计算。那么缺点是什么呢,就是容易受到极端值的影响,我们可以举以前的例子,比如说一个篮球队来了一个姚明,那么它身高极差就会立刻的增大,来了潘长江极差也会增大,就是受极端值的影响。同时,这个极差没有考虑数据的分布状态,比如说一组数据有7、8、9、10,4个数,每组数如果两个,那就均匀分布,如果7是1个、8是1个、9是2个、10是4个,那它就是非均匀分布,偏态分布。那么这样的情况下,这两组数据的极差都是10-7=3,但是第二种情况它的分布发生了偏斜,它没有通过极差能反映出来。 那么为了改善极端值对它

全文文稿

收藏说明: