单变量统计分析

来自中文百科,文化平台
跳转至: 导航搜索

单变量统计分析(univariate statistic),在一个时间点上对某一变量的描述和推论。根据数据获取方式的不同,对单变量的统计分析采用统计描述和统计推论两种方式。

单变量统计描述

当数据的获取包括了研究的全体对象时采用。它分为研究变量的全貌和典型特征两部分。变量的全貌是通过分布来描述的,即将资料简化为变量值和频次对的集合。为了使这种分布更直观,常采取统计表式统计图的形式(见表)。变量的典型特征由一系列特征值描述,变量的层次不同,使用的特征值也不同,最常见的特征值有集中值和离散值。集中值又称集中趋势,表明一组数据的典型情况和平均水平。离散值又称离散趋势,反映变量值的分散程度或波动范围。

生育孩子数目的频次表.jpg

常用的特征值有:①众值М0和异众比例γ。适用于各种层次的变量,但以定类变量最为适用。众值М0用来表示变量的集中值,异众比例γ用来表示变量的离散值。

众值М0=数据中具有频次最高的变量值,如表中生育孩子数是2时,频次为48,即是众值。 众值.gif 式中N为观察总数;fmo为众值的频次。   

②中位值Мd和极差R或四分互差Q。适用于定序以上层次的变量,但以定序变量最为常用。中位值Мd用来表示变量的集中值,极差R或四分互差Q用来表示变量的离散值.

中位值Мd为数据中居中位置的变量值。对于未分组资料,当资料按序排列后,对应(N+1)/2位置的变量值,即为中位值,表中数据的中位值为3(孩子数)。对于分组资料,则累计频率达50%点的变量值即为中位值。

极差 R为数据中变量最大值与最小值之差。表中极差为12。四分互差Q为数据分布中累计频率达25%或75%点变量值之差。   

③均值μ和标准差б。仅适用于定距以上 变量。均值 μ用来表示变量的集中值,是数据总和的平均。标准差б用来表示 变量围绕均值 μ 的平均分散程度。计算公式为标准差.gif均值2.gif式中N为观察总数;Xi为观测值。

标准差б的平方称作方差。方差也可用来表示定距以上 变量的离散值。

单变量统计推论

当资料的搜集只包括研究对象的一个随机样本时采用。它分为参数估计和假设检验两部分。参数估计就是根据抽样结果,科学地估计总体特征值的大小或范围。用样本的均值x、成数p和标准差s作为总体的特征值,均值μ、成数 p和标准差б的估计值,称作参数的点估计。例如,根据样本的人均收入,估计总体的人均收入。人均.gif 观察值.gif 式中Xi为样本中的观察值;n为样本的容量; m为所研究的类别在样本中的数目。

参数的区间估计是对总体的特征值所在范围作出估计。例如,根据样本的人均收入,估计总体的人均收入在什么范围。在样本容量 n不小于30时,总体均值的区间估计为总体均值.gif 总体成数的区间估计为 总体成数.gif     

根据公式确定:总体成数2.gif 区间估计公式中,估计正确的概率为1- α(见图)。

区间估计公式.jpg

假设检验是根据抽样结果在一定可靠性的基础上对原假设作出接受或拒绝的判断。例如,为了确信某地生育率是否已控制在15‰,可进行一次抽样调查。根据抽样结果,来检验生育率为15‰的假设是否可以接受。这样的判断都带有概率的性质,百分之百判断正确是不可能的。衡量判断中可靠性大小,一般用显著性水平大小来表示。

使用统计推论技术的条件是:赖以抽样的总体名单必须是齐全的;抽样是概率抽样。同时非抽样误差在推论中没有涉及。如果数据的非抽样误差太大,统计推论的结果将失去其应有的正确性。