| Jiangtang's profile技止于此BlogListsNetwork | Help |
|
1/18/2008 白话统计(1):平均数、中位数、众数********************示例数列为4、4、5、7、10******************** 定义1. 各项累加之和除以项数,所得之数值,叫做平均数(6)。 定义2. 众数是出现次数最多的那一项的数值(4)。 定义3. 中位数是这样一个项的数值(或两项之平均数):它(或该两项)的数值大于或等于其余一半项的数值,而小于或等于另外一半项的数值(5)。 注1:平均数受每个改变的牵动,中位数和众数却只受某些改变的牵动。由于这个原因,平均数常常被认为是“敏感的”,是“反映整个分布的”。 注2:当分布含有少数在一端远离的极端项时,平均数的敏感性,对它的代表性反而可能是不利的。 注3:中位数不受少数极端值的影响。 注4:众数显示最大频率,而最大频率是最普遍化的同义语。
物理模型:设想一块实验板,其上有4至10的等距刻度。假定5个一磅重的砝码置于板上,砝码的位置为4、4、5、7、10。现在假设有一支点,令该实验板连同其上的砝码在支点上保持平衡,并设该实验板本身无重量。几经失败之后,我们设想找到了平衡点。
结果,支点在各项的平均数之下。任何项的集合的平均数都是那些项的平衡点,而且平均数是唯一的平衡点。 考虑支点左边每个砝码与支点(平均数)的距离。最左端的两个砝码与平均数相距2个单位,第三个相距1个单位,总和是5个单位。同样,支点右边的砝码与支点的距离也是5个单位。正是这个等量平衡了实验板。左右两边砝码与平均数的距离之和总是相同的,也即平均数两边的距离“相抵”。 为了得到上面的距离,从各项减去平均数。有负号的是平均数左边砝码得到的结果,有正号的是右边砝码得到的结果。前面提到,把负号抹去,左边各项的和等于右边各项的和(距离“相抵”)。留住负号,则所有项的和等于0 ,Σ[x-mean(x)]=0,即,与平均数之差的和恒等于0。总结一下:
又考虑对平均数的差数平方:
若选其他数如5做参考点,则
如果我们选了平均数以外的其他参考点,则与该参考点的差数平方之和必将大于26。我们把平均数的这个最小二乘性质总结如下:
假设以上5个项是五个孩子的年龄,其平均年龄为6岁。问:“9年之后,这五个孩子的平均年龄是多少?”答案很显然,但如何解释,每个孩子大9岁后,他们年龄的平均数也应该增大9岁。 想像以前那个物理模型,考虑每个孩子长大9岁后的情况,我们把所有的砝码右移9个单位。这时砝码已经处于新的位置,新的平衡点就是新的平均数。可以想到,平均数也已随着刻度向右推移了恰好9个单位。刻度增加了,但刻度的相对位置仍然是相同的,新的平均数同这些刻度的相互位置也和原先的一样。从每个刻度上减去一个常数,砝码就会左移,平均数就会减少同样的数。概括一下:
又问,当分布的各项乘以常数时,平均数会是怎样?如果各项乘以2,则各项之和就增加了一倍,这样新的平均数就是先前平均数的两倍,可以概括如下:
********************************* 参考资料是美国G.H.维恩堡等著的《数理统计初级教程》(常学将等译,太原:山西人民出版社,1986),非常好的一本统计入门书,通篇是直觉例子。这些日子感到要用白话传达统计学概念的必要,故纸堆里搜出这本书。 Comments (2)
TrackbacksThe trackback URL for this entry is: http://johnthu.spaces.live.com/blog/cns!2053CD511E6D5B1E!375.trak Weblogs that reference this entry
|
|
|