第二章: 一元线性回归模型
2.1 OLS(最小二乘法)
- 对于,不同的估计方法会得到不同的样本回归参数,所估计出来的也就不同。
- 理想的估计结果也就是估计的与真实的的差(即剩余)总的来说越小越好。
- 因为可正可负,总有,所以可以取最小
2.1-2 最小二乘原理
- 普通最小二乘法(Ordinary Least Squares, OLS)建立在最小二乘准则上,最小二乘准则是使全部样本观测点的残差平方和(Residual Sum of Squares, RSS)最小。
- 最小二乘准则就是寻找一组合适的估计值和,使得如下目标函数(RSS)达到极小:
- 对 RSS 求偏导,得到
- 进一步化简
- 上式可得,这是很重要的两个条件
- 整理可得正规方程组
- 解得
- 其中,
- 由此产生的和称为参数和的最小二乘估计量(OLSE)。根据特定样本计算出的和的具体数值称为最小二乘估计值。
2.1-3 普通最小二乘估计
由 OLS 确定的样本回归函数有以下性质: 1.样本回归函数是由所选取的样本为一决定的. 2.由知,说明回归直线通过样本的平均点,即通过样本散点图的几何中心。 3.拟合值的均值等于实际观测值的均值 4.剩余项的均值为 0。由知,残差的均值为 0: 5.由知,和的大小无关,进而与的大小无关,即。2.1-4 拟合优度
样本回归线对样本观测数据拟合的优劣程度,可称为拟合优度。 对上式两边进行平方并且加总,得 由和,所以 得到式子: 样本决定系数:度量 SRF(样本回归函数)对样本数据的拟合程度- 的大小取决于样本,是随样本而变的随机变量。
- 显然, 。
- 越大,说明 SRF 对样本的观测值拟合越好,意味着 x 变动对于 y 变动的解释力越强,线性相关关系越显著,反之亦然。
2.2 OLSE 有限样本性质及其古典假定
- 当样本容量既定时,不同样本得到的参数估计值并不完全一致,他们的统计性质称为(或)。估计量的有限样本性质的谈论是参数区间估计的基础。
- 准则: ——线性性,即参数估计量是另一个随机变量的线性函数。 ——无偏性,即参数估计量的均值或期望值等于总体的真实值。 ——有效性,即参数估计量在所有线性无偏估计量中具有最小方差。
- 这三个准则也称为估计量的小样本性质。拥有这类性质的估计量称为最佳线性无偏性(Best Liner Unbiased Estimator, BLUE)
2.2-1 建立 OLSE 无偏性的假定
- 即要求模型形式为:
- 自变量的观测值具有有限的非零方差,即自变量的观测值不能完全相同。
- 即给定解释变量的任何值,随机误差项的期望值为零:
-
- 第一,总体回归函数设定正确。 说明 u 中不包含系统性的影响因素(如遗漏变量/系统的测量误差等),回归模型函数形式设定正确,没有设定偏误。
-
- 第二,解释变量严格外生。
无偏性的证明
当回归模型满足假定 SLR.1~SLR.4 时,OLSE 满足无偏性。 证明:因为 所以: 其中: 进一步由于,所以: 说明:是的线性组合。 即使是同一组,不同的的实现导致了不同的,而不同的组合导致了不同的,因此,它是随机变量。 对求期望可得: 此即证明了的无偏性。的无偏性类似可证。
2.2-2 OLSE 的有效性及其假定
- OLSE 的是指在所有线性无偏估计量中,最小二乘估计量具有最小方差。
- 为了使 OLSE 具有有效性,需要引入下面的假定。
- 即对给定任意解释变量值,随机误差项都具有相同的方差:
- 即是 u 的条件方差,也是 u 的无条件方差。一般被称为随机误差项方差
综上所述,在假定 SLR.1~SLR.5 下,OLSE 具有线性,无偏性,有效性的有限样本性质,故 OLSE 被称为,这就是著名的高斯-马尔可夫定理的条件方差的公式
上式中得出的 OLS 估计量\hat\beta_0和$$\hat\beta_1的方差比其他任何线性无偏估计量的方差都要小,即 OLSE 具有有效性。
- 推导: , 其中,
2.2-3 OLSE 的正态性及其假定
- 我们还希望 OLSE 服从正态分布
- 假定 SLR.6 与假定 SLR.4 和假定 SLR.5 合在一起,表示为:
2.3 参数的统计推断
2.3-1 估计量分布
- 对于一元线性分布回归模型,已知服从正态分布:
- 和的标准误差的计算公式为:(标准误差是方差的算术平方根)
- 结论:
标准变换
- 为了便于直接利用“标准化正态分布的临界值”作统计分析,需要对进行标准变换。
- 标准化方式:
估计
- 由于真实的未知,需要利用样本对其进行估计。可证,在古典假设下:
- 残差的样本方差,即均方误差(Mean Square Error,MSE)记为
:是未知确定的常数;是由样本信息估计的,是一个随机变量。
- n-2 为自由度,即可自由变化的样本观测个数
- 未知,可用代替(随机变量)去估计参数的标准误差
- 即和的样本标准误差的计算公式为
- 此后,标准变换后服从 t 分布:
- 对和进行标准变换,构造的枢轴变量服从 t 分布:
2.3-2 回归系数的假设检验
- 回归系数的假设检验主要是判断 x 是否对 y 具有显著性影响,即针对变量的进行变量的显著性检验
第一步:提出假设 原假设备择假设 第二步:构造 t 统计量 第三步:给定一次试验中小概率发生的可能性即显著水平,查 t 分布临界。通常取 0.01 或 0.05。 第四步:做出统计决策。当时,拒绝原假设;当时,不拒绝原假设。
- 假设检验的基本步骤(临界值比较法)
2.3 -3 回归参数的置信区间
-
要判断样本参数的估计值在多大程度上可以“近似”地替代总体参数的真值,往往需要通过构造一个以样本参数的估计值为中心的“区间”,来考察它以多大的可能性(概率)包含着真实的参数值。这种方法就是参数检验的置信区间估计。
- 在确定参数估计式概率分布性质的基础上,可找到两个正数和,使得包含的概率为,即
问题:是给定的,如何取寻求合适的呢? 原则:利用标准化后的分布性质去寻求 将对应于显著性水平的 t 分布临界值简记为,有 所以在的置信水平下,有,或者 由此可得,在置信水平为下的置信区间为: 同理,在置信水平为下的置信区间为:
本章公式总结
总体回归函数 截距 斜率 总体回归模型 随机误差项 样本回归函数 样本回归模型 残差 书里面的残差是****符号 被解释平方和(Explained Sum of Squares) 总平方和(Total Sum of Squares) 残差平方和(Sum of Squared Residuals) 回归(regression) 回归标准误(standard error of the regression) 和的样本标准误差的计算公式为 由此可得,在置信水平为下的置信区间为: 同理,在置信水平为下的置信区间为:设置原假设和双边备泽假设分布为 为了检验原假设,我们采用与总体均值假设检验相同的三个步骤。 第一步,计算的标准误。它是抽样分布的标准差的估计量。 第二步,计算t 统计量 第三步,计算 p 值,即在原假设成立的条件下,得到与的距离至少和实际计算的估计值与的距离相同的概率。其数学表达式为 其中,表示在原假设成立的条件下计算得到的。 因为在大样本的下近似服从正态分布,因此在原假设条件下,t 统计量近似服从标准正态分布,故在大样本下有
第三章:多元线性回归模型
3.1 OLS(最小二乘法)
- 多元线性回归模型和一元线性回归模型的类似,只是多了一些参数
- 多元线性回归模型形式
- 表示在保持不变的情况下,变化一个单位,对的影响。
- 如果将 n 组实际观测数据代入,可得到下列形式:
3.1-2 最小二乘法原理
- 多元线性回归方程的未知参数估计和一元线性回归方程原理相同,依旧采用普通最小二乘法(OLS)进行参数估计,估计准则是令残差平方和 Q 达到最小。其中
3.1-3 标准化系数
- 由于各个变量的单位不同,所代表的意思也不同,因此需要对回归系数进行标准化
3.1-4 多元回归拟合优度
- 拟合效果的三种度量:回归标准误差、和调整
3.2 OLSE 有限样本性质及其古典假设
3.3 回归系数的假设检验
- (无偏性) ,其中,所以:
- 对作标注化变换,得到 t 分布
3.4 F 检验
- 第一步:提出假设
-
- 原假设 (所有斜率参数同时为零)
- 备泽假设不同时为零
- 第二步:构造并计算F统计值
- 第三步:给定小概率(显著水平),查表得到F分布的临界值。
- 若,则拒绝,认为不同时为零, 说明因变量 y 和自变量之间整体的线性关系显著
- 第四步:做出统计决策。
3.5 t 检验
- 第一步:提出假设。原假设,备选假设。
- 第二步:构造t统计量
- 其中,为估计标准误差,在原假设
- 第三步:给定小概率(显著水平),查表得到t分布的临界值。
- 第四步:做出统计决策
- 若,则拒绝,认为显著不为 0,说明对 y 具有显著性影响;称统计显著,简称显著;
3.6 约束回归
对回归系数进行的某种假定称为”约束”,根据参数关系类型的不同,分为线性约束和非线性约束,线性约束又分为排除性约束和一般类约束。- 线性约束举例:
-
- 排除性约束举例:
-
- 一般性约束举例:,
- 非线性约束举例:
3.6-1 约束回归模型的 F 检验
假设无约束回归模型是具有k个变量的多元回归模型: 如果有q个排除性约束需要检验,为方便,假设这 q 个解释变量是最后q个:- 第一步:提出原假设,
-
- 在原假设下,无约束回归模型可以表示为
- 第二步:构造F统计量并计算F统计量值。
- 第三步,给定显著性水平,查表得到F分布的临界值
- 第四步:做出统计决策
(1)请求出。( 10 分) (2)𝛽 的 OLS 估计量是一致的吗?请解释说明或证明。( 10 分)
- 考虑如下回归模型,并且有。有一位研究 者想要使用调研数据来估计 𝛽。但是他发现,调研中的个体系统性地将低汇 报了 50%。因此,研究者实际使用的数据是独立同分布的 𝑌 和观测值,这里 。这位研究者用OLS来估计如下模型:
这里是最低工资(以美元计),是 18 ~ 25 岁的劳动人口,是该 市的国民生产总值,是该国的国民生产总值。每个变量前的前缀 g 表明这 个变量是从第 t-1 年到第 t 年的增长率变量。 (1)如果我们担心该市在选择最低工资时部分地基于我们观察不到但确实会影 响年轻人就业率的因素,此时 OLS 估计量会有什么问题?(20 分) (2)令表示该国的国家层面的最低工资。你认为是与不 相关的吗?请判断,并解释。(20 分)
- 假设针对某国某城市,你想用数据去估计该城市最低工资对 18 ~ 25 岁可就业 者的就业率的效应。一个简单的计量模型可以设定为 ,
(1)研究者使用上述模型进行研究,OLS 估计得到 ,相应的标准误差为 0.2。请问你是否相信这个结果的正确性?如果“是”,请简要解释。如果“否”, 请指出问题,并做出修正使研究者得到正确结果。(20 分) (2)另一位研究者在核对了原模型设定之后,想知道是不是学习时间越多,就 能越来越快地提高成绩,那么他应该如何修改模型?如果该研究者想进一步了 解睡眠是否有助于高效学习,那么要如何修改模型?(20 分)
- 在一项关于大学生成绩与大学生日常时间分配的研究中,研究者们向 1000 名 大学生发放问卷了解其成绩与日常时间分配。学生需要将自己一周时间归为 4 类活动:学习、睡觉、兼职和闲暇。因为任何活动都被归入 4 类中的一类,所 以学生一周所有活动的总时间一定等于 168 小时。所有学生都完成了问卷并交 还了问卷。之后,研究者使用以下模型进行计量经济分析:
