二、数值型数据的整理与显示
(一)数据的分组
数据分组就是根据统计研究的需要,将数据按照某种标准划分成不同的组别。分组后再计算出各组中出现的次数或频数,形成一张频数分布表。分组的方法有单变量值分组和组距分组两种:(1)单变量值分组是把每一个变量值作为一组,这种分组方法通常只适合于离散变量且变量值较少的情况。在连续变量或变量值较多的情况下,通常采用组距分组。(2)组距分组是将全部变量值依次划分为若干个区间,并将这一区间的变量值作为一组。
例如,某高中一年级一班共有55名学生,高一语文中成绩分别为:
59 73 87 65 89 85 77 94 69 97
56 80 68 95 96 50 63 88 91 90
96 92 93 79 74 65 74 89 83 51
74 79 94 67 92 92 93 70 87 86
54 87 86 54 62 76 86 73 86 70
100 110 108 102 112
采用组距分组的步骤:
第一步,确定分组组数
确定分组组数的要求是:(1)划分的组数,既不应太多也不应太少;(2)组数的确定,要尽量保证组间资料的差异性与组内资料的同质性;(3)采用的分组办法,要能够充分显示客观现象本身存在的状态。
第二步,对原始资料进行排序
第三步,求极差
将最大的观察值与最小的观察值相减便得到极差
第四步,确定各组组距
在实行等距分组的情况下,组距的确定办法为:
最好把组距取成接近于能被5除尽的一个数。
掌握:组距与组数成反比关系,组数越多,组距越小,组数越少,组距越大。
组距是每组观察值的最大差,即每组的上限值与下限值之间的差。
组距=某组的上限值-该组的下限值
第五步,确定组限
组限是组与组之间的界限,或者说是每组观察值变化的范围。组限有上限与下限之分;上限与下限的差值称为组距;上限值与下限值的平均数称为组中值。
确定组限时应注意:(1)第一组的下限值应比最小的观察值小一点,最后一组的上限值应比最大的观察值大一点;(2)特别需要或不得已的情况除外,最好不要使用开口组;(3)组限应取得美观些,按数字偏好,组限值应能被5除尽,且一般要用整数表示。
第六步,确定各组观察值出现的频数
凡观察值落在某一区间的,就计发生一次,最后统计各组观察值发生的总次数。采用组距分组时,需要遵循“不重不漏”的原则。
为解决“不重”的问题,统计分组时习惯上规定“上组限不在内”,即当相邻两组的上下限重叠时,恰好等于某一组上限的观察值不算在本组内,而计算在下一组内。
【例题1·多选题】组距分组适用于下列情况( )。
A.离散变量 B.变量值较少 C.连续变量
D.变量值较多 E.分类数据
[答案]CD
【例题2·单选题】上限值与下限值的平均数称为( )。
A.组中值 B.组平均数 C.组距 D.组数
[答案]A
【例题3·多选题】在组距分组中,确定分组组数须考虑( )。
A.组数尽可能少
B.组数尽可能多
C.尽量保证组间资料的差异性
D.尽量保证组内资料的同质性
E.组数应能被5除尽
[答案]CD
【例题4·单选题】(2006年、2008年)在对数据实行等距分组的情况下,组距与组数的关系是( )。
A.无任何关系 B.反比关系
C.正比关系 D.组距总是组数的5倍
[答案]B
【例题5·单选题】为解决“不重”的问题,统计分组时习惯上规定( )。
A.“不重不漏” B.“组限值应能被 5除尽”
C.“下组限不在内” D.“上组限不在内”
[答案]D
【例题6·单选题】(2007年)对一组数据进行分组,各组的组限依次是“10~20”、“20~30”、“30~40”、“40~50”、“50~60”、“60~70”。在以上这组数据中,50这一数值( )。
A.由于恰好等于组限,不需要分在某一组中
B.分在“50~60”一组中
C.分在“40~50”一组中
D.分在“40~50”或“50~60”任意一组中都可以
[答案]B
【例题7·单选题】(2008年)将一批数据进行分组,各组的组限依次是“110~120”、“120~130”、“130~140” 、“140~150” 、“150~160”,按统计分组的规定,140这一数值( )。
A.不计算在任何一组
B.分在“140~150”这一组中
C.分组“130~140”这一组中
D.分在“130~140”或“140~150”均可
[答案]B
(二)数值型数据的图示
显示分组数据频数分布特征的图形有直方图、折线图等,上面介绍的条形图、圆形图等也都适用于显示数值型数据。
1.直方图
直方图是用矩形的宽度和高度来表示频数分布的图形。
在直方图中,我们实际上用矩形的面积表示各组的频数分布。
直方图与条形图的区别:(1)条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度(表示类别)则是固定的;直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,因此其高度与宽度均有意义;(2)直方图的各矩形通常是连续排列,而条形图则是分开排列。
2.折线图
折线图也称频数多边形图,它是在直方图的基础上,把直方图顶部的中点(即组中值)用直线连接起来,再把原来的直方图抹掉就是折线图。
【例题1·单选题】用宽度相同的条形的高度或长短来表示数据变动的图形是( )。
A.折线图 B.条形图 C.直方图 D.圆形图
[答案]B
【例题2·多选题】(2006年)直方图与条形图的区别在于( )。
A.直方图的各矩形通常是分开排列
B.直方图用面积表示各组频数的多少
C.直方图的各矩形通常是连续排列
D.直方图的矩形高度与宽度均有意义
E.直方图的矩形高度有意义而宽度无意义
[答案]BCD