统计学分位描述统计学和推断统计学,描述统计学就是根据我们总体的一般特征我们计算它的离散指标、集中指标、分布形态,然后我们还可以通过一些图表、柱状图、直方图等等一些统计图统计表的形式把它的一般特征概括出来。那么推断统计学实际上就进入了另外一个层次,我们对一个很大的总体,我们需要收集或者通过抽样的方式,用少部分的样本来推断总体,这就是推断统计学。
那么要进行推断,首先得知道它的概率分布,概率我们讲它的起源,它实际上是统计学一个很重要的起源,一个很著名的例子就是从1654年有一个骑士叫梅雷,他是个赌徒,但是他之前是个没落的贵族,他在赌的时候有这样一个问题,如果这个赌局比如说有C局,要赢C局算赢,往往你要有一定的规则,赢到一定的局数的时候才能算赢,而且赌的时候谁出的资大,谁就先有主动权。在有限赌资的情况下要达到相应的赢的赌局,这涉及到一个赌资分配的问题,就是说你不可能每一局都出的资最大,因为你的赌资是有限的。因此他想这样一个问题,我能不能在我有限的资金下我把这个资金合理的分配使得我赢的概率比较大,然后他把这个问题就提交了passke,是很著名的一个学者,这两个学者进行研究,虽然赌博这个事情不是很光彩的事情,但这个问题却是非常有意思。因此他们进行研究,就开始了概率的研究范畴,实际上从20世纪、18世纪到1657年这一个整个的历史长河,概率就是在不断的提出新的问题基础上我们发展出了新的很多的概率知识,比如说大数定律等等一些问题。
那么我们概率的研究实际上已经遍布到所有学科,比如说天气预报、地震预报,产品的抽样调查,经济研究等等,都是概率中的一个很重要的研究领域。那么在研究概率过程当中,首先得搞清楚我们所处的现象有哪些,自然界所处的现象有两大类,一类叫做确定性现象或者叫做必然发生的,比如太阳东升西落,水从高处往低处流,同性电很相斥,异性电很相吸等等。还有一些现象在一定条件下出现的机会可能是多样的,比如说一个硬币往上一抛正反面都可能出现,那么一个炮弹发射出去它可能落在这个点也可能落在另一个点,掷色子它可能出现一点也可能出现六点也可能出现五点。婴儿的出生,它可能是男婴也可能是女婴,明天的天气可能是晴也可能是阴等等,这些现象我们把它叫做随机现象,随机现象我们说它再一次过程当中具有偶然性,但是在大量的观测过程当中,它就显示出一定的必然性。
随机现象当中我们具有多种可能的结果的现象叫随机现象,每一种现象的可能结果我们把它叫做随机事件,各种随机现象的各种可能结果的变量我们把它叫做随机变量。所以随机变量就成为我们研究随机现象一个很重要的工具,也是建立了随机现象和我们实属空间一个很重要的桥梁,使得我们用数据的工具来研究它的随机现象的本质,建立不同的概率模型。
这里提到的概率,概率我们主要指度量随机事件发生可能性大小的一种度量,实际上有三种概率,一个叫古典概率、一个叫统计概率,还有一个叫主观概率。古典概率就像掷一个色子,我们在没有做实验之前,如果这个色子是质地均匀的话,每个面出现的概率都是1/6,都是可以算出来的。而统计概率是要通过大量的实践,通过来统计出来它出现的可能性。这两种概率都是客观概率,还有一种概率叫做主观概率,就是来自于人们的经验和主观判断,比如说大学四年毕业之后,我找上自己理想工作的概率有多大,我考上研的概率有多大,这个一方面和你学习的实力准备的情况有关系,也和当时的竞争环境,甚至和你当时考试的心情有关系,以及你一些其他因素的影响。所以最终的结果可能和你所预料的不太一样,这种概率由于你主观的一些判断得到的一种概率我们把它叫做主观概率。当然我们概率不同的取值它形成一定的概率分布,这个概率分布和频率分布是什么关系呢?概率分布它是一种理论上分布,做非常非常多的,然后形成了一概率分布。频率分布是一种观察分布,就是你用有限实验次数得到的。当然频率分布的极限就得到了概率分布。
我们在实际过程当中做出来的结果实际上一种频数分布,画出来直方图,但这个直方图如果间距无限细微下去就变成了分布图,就变成概率分布图。在求概率的时候我们求一个区间的概率,一般是用它的分布函数,A到B的概率区间取得概率是用 FB-FA,就是B的分布函数减去A的分布函数,这个分布函数就是从负无穷一直到这个区间点的一个积分。或者是用概率密度可以表示他的概率,比如说A到B的概率,我们可以用A到B的对概率密度的积分得到,概率密度的概念就类似于我们物理当中的密度的概念,在某一个点它的密度大和小,分布的概率密度也有点相似。
那么概率分布我们由分为离散性概率分布和连续性概率分布,离散性概率分布我们有二项分布,多重分布和超几何分布。连续性分布我们主要有正态分布,均匀分布和指数分布。二项分布,主要指在N次相同条件事件当中出现成功和失败的概率它的一个分布情况,在多重分布过程当中,它主要是描述单位时间和单位空间当中,稀有事件发生的次数,比如说在放射性物质在单位时间内的放射次数,显微镜下的白血球次数,单位体积下的水的细菌数,在广大的一个大片草原当中的昆虫数目,地震、火山、洪水、意外事故发生的次数都可以用多重分布来描述。
超几何分布,实际上和二项分布是对应的,二项分布是放回抽样,而超几何分布是不放回抽样,所谓放回抽样就是在一个比如说我们进行抽奖,那个彩球我们第一次抽回来之后再把它放回去再做第二次抽样,再把它放回去再做第三次抽样,那么这就叫放回抽样,如果第一次抽出来放在一边,再从剩下彩球当中再抽,再放到一边,再从剩下彩球当中再抽,这叫不放回抽样。所以超几何分布针对的是不放回抽样,而二项分布针对的是放回抽样来进行研究的。
以上我们介绍的主要是离散的一些分布,连续分布主要有正态分布,正态分布我们从中学开始学,大家已经比较熟悉了,它主要是一个对称分布,它的特征有均值和方差,均值位置决定了它的中间纵轴的距离,方差主要决定它的扁平还是间分得程度。
我们讲了正态分布的时候,它实际上还有很多比较好的特性,我们很多指标过程当中我们把一个正态分布我们可以作一标准化,比如说用样本的均值,减去总体均值再除以标准差得到一个Z统计量就是正态分布。那么标准分布,这种标准分布我们在做很多事情的时候非常方便,比如说我们算四六级的标准差,标准差实际上我们是借助于它的标准分来得到的,当然它有一定的换算规则。
连续性分布还有均匀分布,它的各种分布的概率是一样的,均匀分布,还有指数分布,指数分布它所适用的条件,比如说旅客进机场等待时间的间隔,它可以表示出一个独立事件发生时间的间隔,产品寿命的分布,电子元件、可靠性的一个分布。一般在军事、还有大型的复杂系统当中出现事故的概率这种时效分布我们都用指数分布做。
以上我们介绍了都是一些常用的离散的和连续的分布,其实还有一些其他的更多的离散的分布,比如说像退化分布,像高斯不知名分布等等,在连续的分布过程当中,还有超指数分布,三角分布等等,有众多的。如果有时间的话,大家可以去参考相关的文献进行研究。