第四节 数据分析
一、基础统计分析
(一)描述统计分析:掌握
1.集中趋势的测度
集中趋势是指一组数据向其中心值靠拢的倾向,测度集中趋势就是确定数据一般水平的代表值或中心值。集中趋势的测量有三个常用的指标:
(1)众数,是一组数据中出现次数最多的变量值。突出特点是它不受极端数值的影响。
(2)中位数,是一组数据排序后处于中间位置的变量值,是一组数据的中点,即高于和低于它的数据各占一半。
(3)均值,是集中趋势的主要测度值,用于反映一组数值型数据的一般水平。主要包括算术平均数、调和平均数和几何平均数。
2.离散程度的测度:掌握
数据的离散程度是指各变量值远离其中心值的程度,也叫离中趋势。
(1)极差,也称全距,是一组数据中最大值与最小值之差。
极差是描述数据离散程度的最简单的方法,表明数据的分布范围。它计算简单,易于理解。但是极差由两端数值所决定,不能反映中间数据的分布离散状况。
(3)方差和标准差。方差是一组数据中各变量值与均值离差平方的平均数。方差的平方根叫标准差。方差与标准差是描述数据分布特征的重要的统计量,它们是反映数值型数据离散程度最主要、最常用的方法。
根据总体数据和样本数据计算方差及标准差时,计算公式略有不同。
3.相关分析:熟悉
所谓相关分析,是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度,是研究随机变量之间的相关关系的一种统计方法。
对两个变量间线性相关程度的测量称为简单相关系数。
相关系数r的取值范围在-1~+1之间。
●r=1或r=-1时,表明变量间的关系为完全正相关或完全负相关,这是两种极端的情况,实际上表明两个变量之间是线性关系;
●r=0时,表明变量间不存在线性相关关系,可能是无相关,也可能是非线性相关;
●0
●-l
|r|愈接近于l,变量间相关程度愈高,|r|愈接近于0,相关程度愈低。
(二)推论统计分析:熟悉
推论统计是在随机抽样的基础上,根据部分资料(数据)推断总体的方法,也即利用样本资料对抽出样本的总体做出推论的方法。
1.单个样本的参数估计
参数估计是根据样本统计量对总体未知参数进行某种估计推断。掌握两种估计的含义
(1)点估计。当总体分布的形式已知,但其中的一个或多个参数未知时,如果从总体中抽取一个样本,用该样本对未知参数作一个数值点的估计,称为参数的点估计。
点估计有多种方法,如矩法、最大似然法、最小二乘法等。
(2)区间估计。区间估计是用一个区间估计总体未知参数。
2.单个样本的假设检验
参数估计和假设检验是统计推断的重要组成部分,它们都是利用样本信息对总体状况做出某种推断(判断),但是推断的角度不同。
●参数估计是用样本统计量估计总体参数,估计前总体参数是未知的。
●假设检验则是先对总体参数的值提出一个假设,然后利用样本信息,根据抽样分布的原理去检验原先提出的假设是否成立。
用样本均值估计总体均值,总体方差已知,用Z统计量检验;用样本均值估计总体均值,总体方差未知,用t统计量检验。
二、多元统计分析
(一) 多元回归分析
(二) 列联表分析
(三) 方差分析
(四) 聚类分析
聚类分析也称群分析或类分析,是对样品或变量进行分类的一种多元统计方法,目的在于将相似的事物归类。
●对样品(指标的观测值)的分类被称为Q型聚类分析;
●对变量(指标)的分类被称为R型聚类分析。
变量如何选择,取决于聚类的目的。
具体来说,变量的类型有三种尺度:
(1)间隔尺度,即变量用连续的量来表示,如果存在绝对零点,又称比例尺度;例如,长度、重量、时间等。在调研中不常见。
(2)有序尺度,即变量用有序的等级来表示,有次序关系,但没有数量表示;例如将十家啤酒公司的产量按高低自1排至10。
(3)名义尺度,即变量用一些“类”来表示,这些类之间没有等级和数量关系,相似物体的集合称为类。例如“1”代表男性,“2”代表女性。
聚类分析方法主要有系统聚类法、样品聚类法、动态聚类法、模糊聚类法、图论聚类法和聚类预报法等。
(五) 判别分析
(六) 因子分析
(七) 结合分析