统计学绝非一门生硬无趣的学科,它有着鲜活的案例和丰富的实验,让我们循着公式乘着代码在统计的海洋里尽情摇摆叭
1. 回归分析
1.1 简单线性回归模型
(1) 回归方程
许多回归分析都是在如下假设前提下开始的:$y$
和 $x$
是两个代表某个总体的变量,我们希望用 $x$
解释 $y$
,通过一个线性方程,我们可以刻画 $y$
和 $x$
之间的关系:
$$y=\beta_{0}+\beta_{1} x+u \quad (1.1)$$
假定方程 (1.1) 在我们所关注的总体中成立,它便定义了一个简单线性回归模型 (simple linear regression model).
其中,各符号含义如下:
$y$
: 因变量(或被解释变量、回归子)$x$
: 自变量(或解释变量、回归元)$u$
: 误差项(或干扰项)$\beta_{1}$
: 斜率参数$\beta_{0}$
: 截距参数
举例来说,假设我们用方程 (1.1) 来刻画大豆收成:$y$
表示收成,$x$
表示施肥量,$u$
则包括了诸如土地质量、降水量等因素。
(2) 零条件均值假设
只有在我们对 $x$
和 $u$
之间的关系做出某种约束时,我们才能计算出 $\beta_{1}$
和 $\beta_{0}$
的可靠估计量。
🌟 零条件均值假定:
$$\begin{aligned} &\mathrm{E}(u)=0 \quad (1.2) \\ &\mathrm{E}(u \mid x)=\mathrm{E}(u) \quad (1.3) \end{aligned}$$
方程 (1.2) 和 (1.3) 称作零条件均值假定 (zero conditional mean assumption). 有了这两个约束,我们就能计算 $\beta_{1}$
和 $\beta_{0}$
了。
Note: 尽管
$\mathrm{E}(u)=0 \quad (1.2)$
未必成立,但是只要方程中包含$\beta_{0}$
,那么我们假设方程 (1.2) 成立也不会失掉什么。方程
$\mathrm{E}(u \mid x)=\mathrm{E}(u) \quad (1.3)$
说的是$u$
的平均值和$x$
无关。在统计概率中,当 (1.3) 式成立时,我们称$u$
均值独立 (mean independent) 于$x$
.当 (1.2) 与 (1.3) 式均成立时,我们便得到了零条件均值假定。
(3) 普通最小二乘法的推导
普通最小二乘法推导的核心就是计算 $\beta_{1}$
和 $\beta_{0}$
. 为此,我们需要从总体中抽取一个容量为 n 的随机样本:
$$\left\{\left(x_{i}, y_{i}\right):(i=1,2, \cdots, n)\right\}$$
由于我们采用了简单线性回归模型,因此对每个 $i$
,我们都可以写为:
$$y_{i}=\beta_{0}+\beta_{1} x_{i}+u_{i} \quad (1.4)$$
根据方程 (1.2) 和 (1.3), 我们有:
$$ \begin{aligned} &\mathrm{E}(u)=0 \quad (1.5) \\ &\operatorname{Cov}(x, u)=\mathrm{E}(x u)-\mathrm{E}(x) \mathrm{E}(u)=\mathrm{E}(x u)=\mathrm{E}(u \mid x) \mathrm{E}(x)=\mathrm{E}(u) \mathrm{E}(x)=0 \quad (1.6) \end{aligned} $$
以上两个方程可分别写作:
$$ \begin{aligned} &\mathrm{E}\left(y-\beta_{0}-\beta_{1} x\right)=0 \quad (1.7) \\ &\mathrm{E}\left[x\left(y-\beta_{0}-\beta_{1} x\right)\right]=0 \quad (1.8) \end{aligned} $$
将样本数据代入上式得:
$$ \begin{aligned} &n^{-1} \sum_{i=1}^{n}\left(y_{i}-\hat{\beta}_{0}-\hat{\beta}_{1} x_{i}\right)=0 \quad (1.9) \\ &n^{-1} \sum_{i=1}^{n} x_{i}\left(y_{i}-\hat{\beta}_{0}-\hat{\beta}_{1} x_{i}\right)=0 \quad (1.10) \end{aligned} $$
由 (1.9) 得:
$$ \bar{y}=\hat{\beta}_{0}+\hat{\beta}_{1} \bar{x} \quad (1.11) $$
将 (1.11) 代入 (1.10) 得:
$$\sum_{i=1}^{n} x_{i}\left(y_{i}-(\bar{y}-\hat{\beta_{1}}\bar{x})-\hat{\beta}_{1} x_{i}\right)=0 \quad (1.12)$$
整理后得到:
$$ \sum_{i=1}^{n} x_{i}\left(y_{i}-\bar{y}\right)=\hat{\beta}_{1} \sum_{i=1}^{n} x_{i}\left(x_{i}-\bar{x}\right) \quad (1.13) $$
又由于:
$$ \begin{aligned} &\sum_{i=1}^{n} x_{i}\left(x_{i}-\bar{x}\right)=\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2} \quad (1.14) \\ &\sum_{i=1}^{n} x_{i}\left(y_{i}-\bar{y}\right)=\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)\left(y_{i}-\bar{y}\right) \quad (1.15) \end{aligned} $$
因此,只要满足:
$$ \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}>0 \quad (1.16) $$
估计的斜率就为:
$$ \hat{\beta}_{1}=\frac{\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)\left(y_{i}-\bar{y}\right)}{\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}} \quad (1.17) $$
(1.11) 和 (1.17) 给出的估计值叫作 $\beta_{0}$
和 $\beta_{1}$
的普通最小二乘法 (ordinary least squares, OLS) 估计值。
(4) 拟合值和残差
给定 $\beta_{0}$
和 $\beta_{1}$
, 我们能够获得每次观测的拟合值 $\hat{y}_{i}$
.
第 $i$
次观测的OLS残差 $\hat{u}_{i}$
是 $y_{i}$
与其拟合值之差:$\hat{u}_{i}=y_{i}-\hat{y}_{i}$
.
(5) 拟合优度
我们定义:
- 总和平方和 (total sum of squares, SST):
$SST = \sum_{i=1}^{n} (y_{i} - \bar{y})^{2}$
- 解释平方和 (explained sum of squares, SSE):
$SSE = \sum_{i=1}^{n} (\hat{y}_{i} - \bar{y})^{2}$
- 残差平方和 (residual sum of squares, SSR):
$SSR = \sum_{i=1}^{n} \hat{u}_{i}^{2}$
可以证明:
$$SST = SSE + SSR$$
迄今为止,我们还没有办法衡量解释变量或自变量 $x$
究竟多好地解释了因变量 $y$。如果能计算出一个数值,用以概括OLS曲线对数据拟合得有多好,对我们就非常有帮助。回归的 $R^{2}$
(R-squared),有时又称为判定系数 (coefficient of determination),被定义为:
$$R^{2}=SSE/SST=1-SSR/SST$$
$R^{2}$
是可解释波动与总波动之比,因此被解释成 $y$
的样本波动中被 $x$
解释的部分。因为 $SSE$
不可能大于 $SST$
,所以 $R^{2}$
的值总是介于 0 和 1 之间。
(6) 探索:最小化残差平方和
本节中,我们将尝试用遗传算法通过最小化残差平方和来计算 $\beta_{0}$
和 $\beta_{1}$
的估计值。然后将此估计值与第3节中利用公式计算的OLS估计值进行比较。
一般认为,推导出OLS估计值的两个方程 (1.5) 和 (1.6) 是最小化残差平方和的必要条件。因此如果“通过最小化残差平方和”得到的参数估计值和OLS估计值几近相等,则我们可以从直觉上认定上述关于必要条件的说法大约是成立的。
下面,我们就通过两种计算方法估计 $\beta_{0}$
和 $\beta_{1}$
的估计值,来看看最终结果是否符合我们的预期和直觉!
(7) 探索:关于拟合优度的经验性探索
我们构造几组样本数据,并作出其对应的 OLS 曲线,来观测拟合优度值的变化方向是否符合预期。
todo
1.2 多元回归分析:估计
todo