统计总结

Posted by ZhengYang on 2016-09-03

统计基本概念

随机性中的规律性:抛硬币100次,每次正反面是随机的,但总有50次左右为正,另50次左右为反。
规律性中的随机性:抛银币100次,第一个100次,可能48次为正,第二次可能51次为正。
变量:是一个属性,可以取两个或者更多的值。
常量:也可以算是一个属性,但是只能取一个值。
经验变量:可观测到的事物。
理论变量:数学推导出来的变量。$T,\chi^2,F$变量。

对象:需要调查的事物,比如一个人。
个体:从一个调查对象中得出的数据。比如一个人的身高。
总体:包含全部需要研究的个体。
普查:收集总体中全部个体的数据。
样本:是总体的一个被选中的部分。
样本量:样本中包含个体的数量。
随机样本:样本中的每一个个体都是被等机会的选中的。
方便样本:能够很容易很经济地得到的样本。

抽样误差:从样本得出的结论 不一定完全等同 从总体得出的结论。
未响应误差:抽样调查中,一部分人未回应调查,所造成的误差。 对缺失值的处理所造成的误差。
响应误差:抽样调查中,一部分人因为各种原因,并没有真实反映他们的观点。

分类变量(categorical variable):任两个观测值或相同,或不同。观测值之间无大小比较,不能排序。
一个分类变量作图:饼图,条形图。
两个分类变量作图:条形多。

度量变量(metric variable):两个观测值之间的差距,可以度量。观测值可按度量单位排序。
一个度量变量作图:点线图,盒图,茎叶图,直方图。
两个分类变量作图:散点图,时间序列图。

如果精确的数字更重要,用表;
如果直观的印象更重要,用图。

平均数:众数(mode),中位数(median),均值(mean)。单位全是观测值的单位。
变差:极差(range),标准差(standard deviation),方差(variance)。只有极差和标准差的单位是观测值的单位。方差的单位是观测值单位的平方,不好解释。

标准差(standard deviation):到均值的一种平均距离。单位是观测值的单位。分母为观测值个数-1。
离差:变量值-均值。也称为偏差。
绝对离差均值:离差的绝对值/观测值个数。分母不用-1。

标准误差(standard error):很多个不同样本的均值的标准差。计算时可以用s/sqrt(n),s为单个样本的标准差,n为单个样本的样本量
标准差和标准误差的最大区别:标准差是一个样本中计算的,标准误差时多个样本计算的。

标准得分(standard scores):观测值减均值,除以标准差。任何变量的标准得分的值大部分在-2.00到2.00之间。标准得分常称为t-值。

每个样本都可以算一个样本的标准差,也可以算一个样本均值的标准误差,用以估计样本均值的标准差。
样本均值的标准误差 是对 多个样本均值的标准差的 估计。
样本量越大,多个样本均值之间的差距就越小,样本均值的标准误差越小。

概率分布

发生比:又称几率。表示事件发生和不发生的比率,$\frac{p}{1-p}$,logistic回归就用到了几率。

在离散分布中,$p(x)$表示随机变量X在取x值时的概率,等同于写法 $P(X=x)$
在连续分布中,$f(x)$表示随机变量的概率密度小于x的积分,等同于写法$P(X \leqslant x)$。单点的概率为0,所以对于连续分布,$P(X \leqslant x)=P(X < x)$

离散变量的概率分布

伯努利分布:又叫0-1分布。1次实验,出现的概率。
$$p(k|p)=p^k(1-p)^{1-k}$$
其中,$k \in \{0,1\}$

二项分布:是有限总体的放回抽样。n个实验中,出现m次数的概率。每次实验的取值只能是二值选一的。如果样本个数与原始概率的乘积大于5时,可以使用二项分布的正态近似。
$$p(m|n,p)={n\choose k}p^k(1-p)^{n-k}=\frac{n!}{k!(n-k)!}p^k(1-p)^{n-k}$$

Beta分布:二项分布的共轭先验。
$$p(p|\alpha,\beta)=\frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)}p^{\alpha-1}(1-p)^{\beta-1}$$
$\Gamma(t)=\int_0^{\infty}x^{t-1}e^{-x}dx$
$\Gamma(n)=(n-1)!$

多项式分布:每次实验有K种可能的结果,一共有N次实验。概率质量函数为
$$p(m_1,…,m_K|N,p_1,…,p_K)=\frac{N!}{m_1!…m_K!}p_1^{m_1}…p_K^{m_K}$$
其中,$\sum_{k=1}^Km_k=N$,
$m_k$表示第k个事件发生的次数
另外,多项式分布也可以用gamma function表示,
$$p(m_1,…,m_K|N,p_1,…,p_K)=\frac{\Gamma(\sum_{k=1}^Km_k+1)}{\prod_{k=1}^K\Gamma(m_k+1)}\prod_{k=1}^Kp_k^{m_k}$$

Dirichlet分布:多项分布的共轭先验。
$$p(p_1,…,p_K|\alpha_1,…,\alpha_K)=\frac{\Gamma(\sum_{k=1}^K\alpha_k)}{\prod_{k=1}^K\Gamma(\alpha_k)}\prod_{k=1}^Kp_k^{\alpha_k-1}$$
其中,$0\leqslant p_k \leqslant 1$
$\sum_{k=1}^Kp_k=1$

Poisson分布:某种事件在一定期间内出现次数的概率。比如一定时间内顾客的人数。
$$p(k)=e^{-\lambda}\frac{\lambda^k}{k!}$$

几何分布:在伯努利试验中,得到一次成功所需要的试验次数X。X的值域是{ 1, 2, 3, … }
$$p(k|p)=(1-p)^{k-1}p$$

超几何分布:即有限总体无放回抽样。样本量为N,其中M个是及格的。超几何分布描述了在该样本中抽出n个,其中k个是及格的概率。
$$p(k|N,M,n)=\frac{\binom{M}{k}\binom{N-M}{n-k}}{\binom{N}{n}}$$
从M个及格中抽取k个,从N-M个不及格中抽取n-k个,构成分子
从N个总体中抽取n个,构成分母

连续变量的概率分布

均匀分布
$$f(x|a,b)=\frac{1}{b-a}$$

正态分布:又称高斯分布。
$$f(x|\mu,\sigma^2)=\frac{1}{(2\pi)^{1/2}\sigma}exp\left\{-\frac1{2\sigma^2}(x-\mu)^2\right\}$$
$$f(\mathbf x|\boldsymbol{\mu,\Sigma})=\frac{1}{(2\pi)^{D/2}}\frac{1}{|\boldsymbol\Sigma|^{1/2}}exp\left\{-\frac12(\mathbf x-\boldsymbol\mu)^T\boldsymbol \Sigma^{-1}(\mathbf x-\boldsymbol\mu)\right\}$$
Z检验:用于大样本(即样本容量大于30)平均值差异性检验的方法。用标准正态分布的理论来推断差异发生的概率,从而比较两个平均数的差异是否显著。当已知总体标准差时,验证一组数的均值是否与某一期望值相等时,用z检验。

自由度:信息量大小的一个度量。等于样本量减1。

t-分布:当自由度n-1越大时,t-分布越接近正态分布;当自由度n越小时,t-分布的中部较低,两侧收敛较慢,高于正态分布。t-分布是一族分布,每一个自由度,对应一个分布。

t-分布是对 两个样本均值差异 进行显著性测试时用的。t检验改进了z检验,因为z检验假定母体标准差已知为前提。

z检验和t检验的差异,就在于总体标准差是否已知。

$\chi^2$分布:n个独立标准正态变量的平方和,称为n个自由度的$\chi^2$-分布
卡方检验:用于”适配度检验”和”独立性检验”。建立零假说(Null Hypothesis),即认为观测值与理论值的差异是由于随机误差所致,可以简单的理解为不存在差异;$\chi^2$分布也是一族分布,而不是一个。

F分布:为纪念英国统计学家Ronald Fisher。是两个独立$\chi^2$-分布变量的比,具有两个自由度。

统计推断 (估计 假设检验)

统计推断,是一个过程,它能从样本数据得出与总体参数值有关的结论。它由两部分构成,估计和假设检验。
统计量(statistic) 是statistics的单数形式。
样本统计量是从样本中计算出来的。最平常的样本统计量是样本均值$\overline X$,样本百分比P、样本标准差S。
总体参数是在原理上,可以从整个总体中计算出来的,一般用希腊字母表示。总体均值小写μ,总体百分比大写Π,总体标准差小写σ。

点估计

点估计是一个用来估计总体参数的数。例如,样本均值也可以作为总体均值的点估计。可以用矩估计,也可以用最大似然估计。

一个好的点估计的标准:

  • 如果大量的样本统计量的均值等于总体参数的真值,则这种样本统计量是该参数的无偏估计。
  • 许多重复抽样所得的估计值不应离真值太远。

二战时,盟军估计德军坦克,估计总量的例子。

  • 方法一,计算被缴获的坦克的平均值,然后乘2作为总数的一个点估计,该方法假设缴获的坦克是一个随机的样本,没有考虑缴获坦克的数量的影响;
  • 方法二,用观测到的最大编号乘以因子1+1/n,n为缴获的坦克数量,该方法假设总数略大于缴获坦克的最大编号数。

区间估计

区间估计又称置信区间(confidence interval),是用来估计参数的取值范围的。

  1. 找一个样本统计量,如均值或比例值
  2. 从数据中计算抽样误差
  3. 用统计量加减抽样误差,得到估计区间的两个端点。
  4. 如果用类似的方式,重复抽取大量样本量相同的样本,会产生大量的置信区间,而这些区间中,有些包含真值p,有些不包含真值p,但其中有95%包含真值p。

CAUTION!!!

  • 不能说52到58的这个置信区间以0.95的概率包含真值,而只能说,如果你做了100次抽样,大概有95次得到的置信区间包含真值,有5次不包含真值。
  • 直观的说,假设真值是57,则置信区间52到58一定包含真值,而不是以95%的概率包含真值。同样如果假设真实是57,则真心区间50到56就一定不包含真值,而不是以95%的概率不包含真值。
  • 这个概率不是用来描述某个特定区间包含未知真值的可能性,一个特定的区间总是包含或者绝不包含真值,不存在一会包含,一会不包含。用置信水平可以知道在多次抽样得到的区间中,大概有多少个区间包含真值。
  • 一个区间就像一个为了捕获未知参数真值而撒出的网,不是所有撒出的网都能捕获参数的真值。

置信区间的长度

  • 样本中的观测值个数影响着置信区间的长度。大的样本产生较短的置信区间,小的样本产生较长的置信区间。
  • 置信区间的长度还受置信水平的影响。低的置信水平(如90%)产生较短的区间,高的置信水平(99%)产生较长的区间。

假设检验

估计的主要任务 是找参数值等于几,或在哪个区间;
假设检验的兴趣 主要是看看输入的值是否等于某个特别感兴趣的值。

假设检验:
第一,对我们要研究的事物做出某种假设$\mu_0$;
第二,收集数据$\overline X$,并在假设的基础上得到该数据的概率;
第三,如果这个概率$\alpha$非常小(如小于0.05),则认为一开始的假设是错误的。

p-值:在有关总体的某些假设下,观察值或者更极端值出现的概率。

零假设:提出一个总体的参数$\mu$是否等于某个特殊值$\mu_0$,或两个总体的参数之差是否为0。零假设总是一个与总体参数有关的问题,所以总包含希腊字母。
备择假设:零假设的反面假设。
第一类错误(α错误):拒绝 正确的零假设。
第二类错误(β错误):没有拒绝 错误的零假设。
p值:当零假设正确时,得到的观测值的数据 或 更极端的数据 的概率。

p值如此之小,以至于几乎不可能在零假设正确时,出现目前的观测数据时,我们就拒绝零假设。p值越小,拒绝零假设的理由就越充分。
p值告诉我们,在某总体的许多样本中,某一类数据出现的经常程度。
p值是能拒绝零假设的最小的显著水平。

统计显著:如果零假设被拒绝,就可以说样本结果是统计显著的。一般就是,存在差异的。

例子:样本均值之差 t变量。
得到样本均值差大于等于1.3的概率是不能被直接计算出来的,但t大于等于4.25的概率是能够被计算出来的。
如果两个总体均值之差等于0,从均值相等的两个总体中,分别抽取100000个样本,组成100000个样本,才有可能碰到一次样本均值相差1.3以上的情况。即在总体均值相等的情况下,样本均值差异有这么大是一件很少见的事情。

在考虑两个样本均值之差时,t的自由度等于两个样本中总的观测个数减去2。如果自由度很大,几百上千,则可以用标准正态z变量来代替t变量。

显著水平α:是抽样所得的数据,拒绝了本来是正确的零假设的概率。即第一类错误的概率。
在收集数据之前,确定分布,确定好小概率来构造一个区间;当样本数据落入这个区间时,就拒绝零假设。这个小概率成为检验的显著水平(significant level),通常选0.05。
显著水平0.05的意思:在零假设正确的情况下,进行100次抽样,会有5次计算出的统计量,错误地拒绝零假设。
显著水平:总和为0.05,不论单边还是双边。如果是双边检验,显著水平两边的概率各为0.025,总和为0.05。

临界值:显著水平,或者 显著水平/2 所对应的样本统计量。

p值和显著水平都是 概率。
样本统计量和临界值 是同单位的,可能是均值,方差。

t变量:在含有一个或两个均值的假设检验中使用。小样本,需要用自由度n-1确定分布
Z变量:在含有一个或两个比例的假设检验中使用。大样本,不需要参数确定分布

可以这样利用假设检验和置信区间:
如果假设检验,两个总体的统计量之差不为0;接下来可以计算差异的置信区间,来表示差异有多大。

CAUTION!!!
一个统计显著(总体间的差别)的结果在实际中不一定真是一个显著结果(总体间的差别量)。在大样本中,大多结果都是统计显著的。因为现实生活中,不存在完全一样的两片叶子。
如果只是看统计上的显著性,而不注意实际显著性,我们对数据的分析就是不完全的。

变量间的关系

两个变量的4个问题

  1. 从数据来看,变量间有关系吗?
  2. 如果变量间有关系,这个关系有多强
  3. 是否不仅在样本中,而且在总体中也有这种关系
  4. 这个关系是因果关系,还是伪关系

用一个变量的值 预测 另一个变量的值时,它们之间不必非得有因果关系。

在统计分析中,发现两个变量之间有关系,并不等于证明它们之间有因果关系。

自变量(independent variable):解释变量(explanatory variable),预测变量
因变量(dependent variable):响应变量(response variable),结果变量,效标变量

变量分类:分类型变量(categorical),顺序型变量(rank),数量型变量(metric)。

因果关系的三个注意点:

  1. 别的变量可能才是真正影响,当前研究的两个存在伪关系变量,的真正原因。
  2. 存在因果关系的两个变量,是有时间的先后的,即两个变量的关系是单向的。
  3. 现实中,经常存在多元因果关系。

两个分类变量的 $\chi^2$分析

列联表(contingency table):一个描述两个分类变量分布的频数表。列联表中的值是频数,或计数(count)。
研究列联表的一个主要目的是看这些变量是否相关。

两个数值型变量的 回归分析与相关分析

回归分析(regression analysis):描述一个或多个自变量的变化是如何影响因变量。
相关分析(correlation):描述两个数值变量间的关系强度。

回归分析,需要明确自变量和因变量。
相关分析,并不需要明确两个变量中,哪个是自变量,哪个是因变量。

回归分析
总平方和 = 残差平方和 + 回归平方和
总平方和:因变量 和 因变量的平均值 的残差平方和。
回归平方和:回归线 和 因变量的平均值 的残差平方和。
残差平方和:因变量 和 回归线 的残差平方和。

总平方和(TSS) $=\sum(y_i-\overline y)^2$
回归平方和(RegrSS)$=\sum(a+bx_i-y)^2$
残差平方和(RSS) $=\sum((y_i-a-bx_i )^2$
$r^2=\frac{RegrSS}{TSS}$

R2:回归方程解释了因变量的变化程度。
T:回归方程的系数显著性水平。
F:回归方程的线性显著水平。

回归平方和 所占 总平方和的比例 = 相关系数^2

相关系数不仅度量了点到回归直线有多近,而且还度量了x和y的值有多分散。

一个分类变量和一个数值变量

自变量:两个取值的分类变量; 因变量:数值变量。
此时自变量可以转化为虚拟变量。
虚拟变量(dummy variable):将第一个类转化为0,第二个类转化为1。用于回归时计算ols。
当类别数大于2时,需要转化为独热码的形式,来进行回归。

用相关系数r或者回归系数b来计算t-值。进行假设检验,零假设为r为0,或者b为0,即变量间不相关。如果得到的p值是显著的,则拒绝零假设(变量间不相关)。

自变量:数值变量; 因变量:两个取值的分类变变量
还是把类别转化为0和1。所有的样例都在y=0和y=1这两条水平线上。
此时,拟合一条s型曲线,而不是直线,来拟合数据。即logistic回归。
其实,从根本上来说,是一种广义线性回归,对数几率回归。

方差分析 F检验

方差分析(analysis of variance,anova):研究分类型自变量 对 数量型因变量 的影响。
方差分析:是用来对比 因变量 在不同组中的平均值 的统计方法。

更适合的名字,应该是均值分析:先根据自变量分组,再求出每一组的因变量的平均值,看因变量的均值在自变量所定义的组之间是否不同。虽然我们感兴趣的是均值,但在判断均值之间是否有差异时要借助于方差。

  1. 计算平方和
    分类自变量的平方和 =$\sum n_i(\overline {y_i} -\overline y)^2$ ,$n_i$表示第 i 组的个数
    残差平方和 =$\sum \sum (y_{ij}-\overline{y_i})^2$, $\overline {y_i}$表示第 i 组的平均值
    总平方和 =$\sum \sum (y_{ij}-\overline y)^2$
    $R^2$=分类自变量的平方和 / 总平方和
  2. 确定自由度
    分类自变量的自由度 = k-1
    残差的自由度 = n-k
    总自由度 = n-1
  3. 计算均方误差
    分类自变量的均方 = 分类自变量的平方和 / (k-1)
    残差的均方 = 残差平方和 / (n-k)
  4. 得到F值
    F = 分类自变量的均方 / 残差的均方
    自由度为k-1和n-k

为什么这种分析成为方差分析?
效应使用平方和计算的,计算方差的分子也是平方和。在计算样本方差时,用平方和除以自由度n-1。而我们用平方和除以它们各自的自由度得到均方时,得到方差。我们实际上是用对比方差的办法来对比均值,得到F值。
方差分析是基于 计算因变量 在按照自变量的各类的均值 之间的差异程度 和 每一类中观测值的差异程度。

例子
在实验中,我们常把自变量叫做处理变量,把因变量叫做响应变量。
Eg.在农业实验中,处理变量可能是分别用在一块玉米地里的不同类型的肥料,而响应变量则是由不同肥料所得的产量。
地区变量的效应:
(组均值 - 总均值)^2
残差变量的效应:残差平方和
(观测 – 组均值)^2
地区变量和残差变量的总效应:总平方和
(观测 – 总均值)^2
F值就是为了比较自变量和残差变量的效应。
在计算中,我们比较的不是平方和,而是平方和除以它们各自的自由度