本来真没打算连载这个,结果这课居然把课程笔记算成百分制里面的 10 分(,那就写罢。
有参考 Vica Yang 的统辅笔记,JhZhang 的课堂笔记和 V1ncent19 的统辅笔记,如有引用均会在文中注明,在此向前辈表示感谢。
Lecture 1
主要是在吹水,开玩笑以及活跃气氛。正经的内容大概就一个古老的回归现象,我还没有听得很懂,麻了。
Galton's Experiment
以下全是胡说八道,不能保证完全对。
介绍正态分布的时候会有一个很经典的小球过钉板的演示实验,最后落在底部的球似乎呈现出一个正态分布。但实际上球和钉子的每次碰撞都是一个 Bernoulli 过程,过了 n 层钉板就是 n 次 Bernoulli 过程加和,可以近似为正态分布。实际上只要 n 够大,由中心极限定理任何分布的加和都可以被近似为正态分布。
但我觉得实际上小球的情况并不是独立的,毕竟过程中会有相互的碰撞,真的没问题吗(
回归现象的起源是 Galton
对于父代和子代的身高做了一个统计,发现身高远离均值的父母的后代往往身高会比他们更接近平均水平,也就是某一身高水平的父母的孩子的身高中位数作为因变量,父母身高作为自变量时,拟合出的直线的斜率小于
假设不发生回归现象,则和钉板现象一样,后代的性状会逐渐分散,这被认为是一个种群稳定性状的方式。听起来很玄学,似乎也有一个稍微合理的生物学解释了,但我们希望从统计学的角度分析这件事,背后是存在数学规律的。
上图是课程中反复出现的一张图,对此做了很多解释。最上面的正态分布是父代的身高情况(实际上是父母身高的加权和),通过一个“倾斜槽”之后的第二个正态分布展示了子代的身高情况,比父代更加靠近中心。下方也有一个类似于钉板的装置,n 层钉板指的就是 n 代繁衍的过程,或者也可以指代一代繁衍中的其他影响身高的非基因因素,它们被视作独立同分布的,因此加和由中心极限定理可以被近似为正态分布。
图中还呈现出了父代中的一个小组“过钉板”后的结果,是一个小的正态分布。实际上子代的数据就是由一个一个小的正态分布叠加起来的,而正态分布可以线性相加,所以最后呈现出的还是正态分布。
好玄学,我也不知道我在说什么,甚至不是很确定自己理解对了没有。
Anyway,还是 think mathematically,记
一些术语
一般来说,我们把
作为 predictor/input/explanatory variable,把 作为 response/output/dependent variable。 被称为 simple regression,一元总归是简单的。 称为 multiple/multivariate regression,实际上这两者是不一样的。如果每个回归式中有超过一个
就称为 multiple regression,如果有多个 就称为 multivariate regression,并且每个式子里只能有一个不同的 dependent variable。还有叫做 multivariate multiple regression 的回归方法,也就是用多个
来预测多个 的情况,每个 出现在不同的式子里。一般来说
是连续型随机变量, 可以是连续型、离散型或者分类型随机变量。有一些名词,不抄了,简单列一下:
Lecture 2
Simple Linear Regression
数据的组织和表示
Simple linear regression 的数据一般是二元数据对
模型的表示
- 均值为
,方差为 ,注意 是一个未知常数,也视作参数; - 不同的
和 是不相关的。注意此处不需要不独立。
对于更强的模型,例如 simple linear regression model with normal
error,我们直接要求
事实上,在 linear regression model 中,
特别地,在正态假设下, 有
参数的意义和求算
斜率
Least Sum of Square 方法
求算最佳参数实际上就是求使得 sum of squared diff 最小的
记残差为
事实上求导的过程蕴含以下结论:
以上二式可以看做对
以上即为参数
取
MLE 方法
也可以用推断课上的 MLE 方法。实际上,我们想找到一个
在正态假设下,我们可以将
推断复习
咕了。什么嘛,我推断学得还是可以的嘛(x
Lecture 3
线性回归中的推断
回顾一下,无论是 OLS 方法还是 MLE 方法,我们得到的参数估计
通过简单的计算可以知道:
其中
而且有
参数推断
对
进行推断:null hypothesis 为 ,这样设置是因为关心两个变量之间是否存在线性关系。在假设
下可以考虑 test statistic 为 ,这是因为 假设下 ,我们一般用 的无偏估计 来处理。level of significance 为
,于是当 observed data 满足 时 reject 。如果没有拒绝
,通常的可能有以下三种:- 发生了 Type II Error,没有成功拒绝掉
而事实相反; 和 之间确实没有什么线性关系; 和 之间有关系,但是非线性。(这句话原来的 typo 是“有线性关系,但是非线性”,绷不住了,中午被 Photon 指出来了,非常感谢他)
- 发生了 Type II Error,没有成功拒绝掉
对
做 confidence interval:由于在 代表斜率的情况下,有 。于是
, 的 100% confidence interval 是类似地可以对
做推断,有 ,因此如果 null hypothesis 为 ,rejection region 即为满足条件 的数据。对于偏移的 null hypothesis ,也只要相应地移动 rejection region 即可。100%
confidence interval 为 。实际上我们一般对
的推断不感兴趣,因为这个参数未必有意义,依赖于 的取值范围。以上都是对单个参数进行推断,实际上我们也可以进行 joint inference:
同时推断两个参数
,这时候得到的就是 confidence region,使得 。实际上因为 ,所以最小的 confidence region 是一个椭圆。实际上我们也可以考虑做一个矩形的 confidence region,也即对两个参数分别作 confidence interval,confidence coefficient 分别为
。因此 confidence region 为:
参数推断的角度来说
Power Function
一个 significance test 的 power 指的是 reject
Power function 一般是一个关于参数的函数。以推断
我们在线性回归参数推断里会用到一种非中心化 t-分布。普通的 t-分布是关于
对称的,非中心化 t-分布有一定的偏差。注意并不是整体在坐标轴方向上的移动,其形状也发生了变化。表达式为 。对
进行推断:null hypothesis 为 ,这样设置是因为关心两个变量之间是否存在线性关系。在假设
下可以考虑 test statistic 为 ,然而在 下,于是
,其中在 的条件下, 。
BLUE
简单来说,OLS Estimators 是 the best linear unbiased estimator,简称 OLS estimators 是 BLUE。best 的意思是方差最小,这是不难证明的。
BLUE 是非常好的性质,也希望我以后能 go blue(逃
Lecture 4
Prediction & ANOVA,感谢 zzy 救我的生统概论(
Estimation & Prediction
平均响应的推断
有了线性回归模型之后当然是要用来做预测,通过已有数据拟合出一个线性模型,再用来估计未知点的值。对于需要估计的点
,是 unbiased estimator ,是 minimum variance ,由于 和 都有正态假设,因此 也服从正态分布, 。 的估计量是 ,于是有 。因此,
的 confidence interval 是 。confidence interval 的长度为 ,其中 。因此置信区间的长度是近似于随 递增而递增的。也就是说, 距离 越远,置信区间的长度越大,准确性越难保证。综上,我们成功找到了这个对于
的估计的置信区间。
预测值的推断
上述估计的是预测值的平均响应,对于新观测点的值需要改成:
对它做估计
从简单的情形开始,如果
都是已知的参数,则在正态假设下 (非正态假设情况下服从未知分布), 的 confidence interval 是 。一般情况下,设
,于是有 。计算可知方差
;standard error 为
;于是有
, 的置信区间是 ,这个区间一般叫做 prediction interval,长度是 ,其中 ,因此预测区间比平均响应的置信区间略宽。
预测值的平均的推断
考虑在新值
它的宽度小于 prediction interval,但也大于平均响应的 confidence interval。
Confidence Band for Entire Regression Line
怎么翻译都没那味,就写原文吧。
希望找到一个 confidence band:
所以只要取
Summary
一个显示 confidence interval of mean response,prediction interval 和 confidence band 宽度关系的图:
Analysis of Variance (ANOVA)
Variance Estimator
先上点概念:
Total Sum of Squares:
,Sample Variance:
,是非常熟悉的统计量。Variation due to Error:
,Mean Square Error:
,可以作为 的一个估计。Variation due to Regression:
,Mean Squares of Regression:
;
可以计算得到
事实上在 Lecture 2 中我们考虑过是选取 sample variance 还是选取 MSE
作为
F-检验
我们希望通过以上统计量检验
在正态假设和
考虑检验的 power function。在
General Linear Test
另一种检验上述假设的方式。考虑假设
full model:
for full model with ,在 simple linear regression 下 , for reduced model with ,在 simple linear regression 下 ,
在
Pearson Correlation r
Lecture 5
回顾一下简单线性回归的模型假设:
相互独立 服从正态分布 ,
可以总结成 LINE: linearity, independence, normality, equal variance
Diagnostics of X
诊断的方式粗暴一点来说就是肉眼诊断,用一些可视化工具(主要是画图)和其他方式来检验模型的假设是否符合。如果违反了模型假设,结果很有可能不可靠。此时需要用一些弥补的方式来处理。
Why diagnose——Distribution and Confounding
诊断过程需要关注的是
我们一般希望
除此之外诊断
此时如果分别对冰激凌销量-气温和鲨鱼攻击行为-气温作一个 sequence plot,会发现二者都分别和气温有关系,那就有必要把气温作为一个 explanatory variable 加入模型的考虑,这是一种针对 confounding 的诊断方法。
四参数
有一些可以关心的量(甚至不能说是统计量,毕竟
- sample mean 展现了
的主要位置 - standard deviation 展现了数据的分散程度
- 偏度 skewness
展现了数据的对称性 - 峰度 kurtosis
展现了数据相对于正态分布的尾迹 - range 展现了
的分布范围
其中值得关注的是偏度和峰度两个统计量,因为之前没有提过。想起来一个乐子,Pearson
在《Lady Tasting
Tea》里曾经认为一个分布只要有一阶到四阶矩的参数就可以完全确定,但实际上
Poisson 分布的四个参数都是
关于偏度:
时称为 negatively skewed,左尾比较长,所以也会称为 skewed left 时称为 positively skewed,右尾比较长,所以也会称为 skewed right
由图可见偏度是能够体现数据的对称程度的。实际上对称程度是相对正态分布而言的。
一般来说对于一个左偏的分布,会有 mean < median < mode(众数),如果右偏则会是 mode < median < mean。当然 mean 和 median 的顺序不一定准确,以及对于完全对称的分布会有三者相等。
注意如果分布有多个峰值,此时 skewness 不一定还适用。
关于峰度:
时称为 leptokurtic,尖峰态下双尾较长。 时称为 platykurtic,低峰态下双尾较短。
注意峰度的所谓尖峰态低峰态和尾部数据性质也都是相对正态分布而言的。正态分布的峰度就是
,因此峰度的公式里有一个减去 的操作,作为和正态分布的比对。有的时候会把不减去
的称为 kurtosis,减去 则称为 excess kurtosis,使用的时候要注意。实际上峰度带来的度量信息包括峰和尾两部分,单独出现尖峰的条件不能作为判断
正负性的依据,只是表征了 附近的情况,和尾部情况综合起来看才可以;峰度的正负性和方差的大小无关。尾部的情况可以通过 Q-Q plot 查看:
诊断 assumptions
最常用的 assumption
诊断方法是使用残差图进行诊断,一元线性回归中我们可以直接使用
除此之外也有很多理论检验的方法,虽然听起来更 concrete,但其实实际应用中还是肉眼检查最有效。
模型诊断可能发现的一些问题:
和 之间没有线性关系但是硬拟合了一个 不能视作常数,也即异方差 不服从正态分布 之间彼此不独立- 模型可以拟合,但数据中有 outlier
以下给出一些发现问题的方法:
非线性关系
简而言之,
找出问题的手段是使用 scatter.smooth
,观察和
即使线性关系是显著的(R 中得到
异方差问题
实际上的残差并不符合方差相等的假设,则称为异方差问题。即使发生这样的情况也未必会影响到
的估计值,因为计算过程和这一假设实际上是无关的。但是,异方差问题会导致 不再是使得方差最小的估计,失去了 BLUE 性质,但仍然是无偏的估计。问题会反映在关于 的推断中,导致推断或者置信区间不是效率最高的。举个例子,比如说
,实际上是有 ,方差并不相同。画图检查最典型的异方差情况是画出
图后发现 越大, 越分散,呈现出一个扇形的分布形态。模型的诊断也可以使用一些理论方法,异方差检验中常用的几种检验如下所示:
Bartlett 方法,本质上是 likelihood ratio test,但非常依赖残差的正态假设。也即,如果检验结果是拒绝原假设,未必是真的发生了异方差现象,也可能是因为残差不服从正态分布造成了干扰。
Levene & modified Levene (B.F.) 方法,非常常见。
对于可能影响方差导致异方差的因素
,将 相对于 再做一次线性回归,得到的 SSR 记为 。此时
再进行检验。
正态性假设
理论方法之中 Shapiro-Wilk 方法是最佳的,有最大的
power,但是对于样本量是敏感的。也就是说,如果检验结果是
注意正态性检验是完全可以把
相关性
理论方法中最常用的是 Durbin-Watson 方法。
Outlier
模型的数据里有 outlier,不同性质的 outlier
对回归线的影响不尽相同,具体的在 Lecture 6
中再细说。简单来说就是,outlier 的
即使模型中存在 outlier,参数的估计也可以是比较准确的。做
关于
如果在某一线性模型中得到
- 事实上可以。
已经是相对大的数值了,说明模型对于方差的解释能力是相对好的;另一方面考虑 ,相关系数其实是比较大的,可以认为这一模型是合适的。 - 但是,这并不能说明线性模型是这一问题下最好的模型。
想要多大就可以多大,例如给模型加入新的多项式型变量,总能更多地解释一些方差,不能单纯地追求 的大小。 - 另外,如果在不同的模型比较中对
做了变换,比如进行了标准化或者 Box-Cox transform,此时是不能和原始的模型再进行 的比较的,只能检查单个 的值能否接受。这是因为 已经随着 的变化而变化了,模型的方差解释能力 无法比较。
Lecture 6
Built-in Diagnostic Plots in R
R 内置的四个诊断图是
Scale-Location Plot
关注 magnitude 所以需要一个正值,选择了先取绝对值
取绝对值之后的数据往往人为造成了右偏,开方可以缓解一些
standardize 之后绝大多数
都收入了 这一范围内(正态分布的主要区间),更清晰,有可比性虽然理论上的
是独立分布的,但是残差之间是有约束关系的, ,也就是说 的变动范围本身就和其在 轴上的位置(也即 的大小)相关。较大的 会对应 的更大方差,导致可能会看起来像异方差。标准化并开方能够一定程度缓解这样的问题。
如果此图上的残差点分布看起来比较随机,拟合线也相对平行于
Cook's Distance
图中被标出数字的点/靠近右上角和右下角/红线之外的点需要重视一下,是 high leverage point 或者 outlier,可以进一步检验。
Residuals & Leverage
Leverage
定义每一点的杠杆值为
事实上,
我们对 extreme values 做一些分类:
Outlier: 离群值是对于其
值而言的, 的实际取值远离通常该有的范围,则这一点会被认为是 outlier。High Leverage Point: 高杠杆值点是对于其
的取值而言的,由上述分析可以得到 较大的主要条件。Influential Point: 强影响力点指的是移除此点后,回归线会发生较大的变化的点。
如果一个点既是 outlier 又是 high leverage point,那它一定是 influential point,直觉上来看是因为它的
和 都具有一定的特征,会对回归线造成较大的影响。
如果
Studentized Residual
一个 influential point 造成回归线的巨大改变无法在残差图上体现出来,因此我们希望有一种手段能够体现出它和其他正常点的巨大差异。一个自然的想法是先移除它再做回归线,然后在这一模型上体现残差,即为 studentized residual。
这么说还是太抽象了,放个图好了:
具体来说,studentized residual 和 standardized residual 有一些差别:
standardized residual:
,由于 ,则 ,代入即可。deleted residual:
,其中 是 在去除这一点的模型中所对应的响应。studentized residual:
,同理有 , 是去除第 点的模型对应的 MSE。事实上
是 internal studentized residual,当 时认为是一个 outlier。studentized deleted residual 如下所示:
Cook's Distance
考虑
Lack of fit test
怀疑某个模型并不符合线性,且其某一
事实上也是 general linear test 的一种,这里的 full model 就是 cell
mean model
对 SSE 进行进一步的拆分,将其改变为
因此,对应地有
这也就说明了为什么失拟检验只有在存在 replicates
的时候才能做,因为这时才会有
Remedy Methods
补救非线性
通过
R 中可以调用函数 nls
。
补救异方差
可以使用 weighted analysis,具体参见 Lecture 12 的内容。
补救非正态
如果残差体现出非正态分布的性质,可以对 glm
。
Transformation
有以下任一需求的时候都可以考虑对
- 稳定方差:观察到
似乎是异方差的 - 提高正态性
- 简化模型,提高解释性
最普遍的方法是 Box-Cox Transformation,取
另外不同的
在实际使用中往往是直接对
一些典型的数据分布和变换方法:
Miscellaneous Topics
一些杂谈,关于 simple linear regression 的最后内容。
Regression Through the Origin
非常坏回归,爱来自自由度(
强迫过原点回归的时候斜率的估计是
- 残差的和
,这导致 的交互项无法消去,于是也不能再对 SST 做分解成为 SSE 和 SSR 之和。 - SSE 此时的自由度是
,SST 的自由度也不再是 SSE 和 SSR 的自由度之和。
Inverse Predictions
对
用理论来解释的话,取相关系数
如果对于某个响应值
Limitations of
使用
不能作为拟合程度的度量。 的形式显示了,实际上如果把 的取值变得足够分散, 的取值想要多大就能有多大。不同的散点分布情况可以得到几乎相同的
,一定要画图检查线性模型是不是最合理的。不能对于不同的模型比较
,归根结底 反映的是模型对于 SST 的解释能力,SST 一旦改变就不能交叉对比。因此上述 transformation 中对于系数 的比选标准是 maximum likelihood。 不能显示 和 之间的因果关系,因为 和 这两种回归得到的 是相等的。
Lecture 7
从一元线性回归过渡到多元回归的部分,介绍回归方程的矩阵表达。
矩阵表达
把
假设
和 simple linear regression 相同,
因此有
相应地,
ANOVA 中的方差和自由度拆分在这里仍然适用:
Hat Matrix
Hat Matrix 有丰富的性质,在这里列举一些和统计关联比较大的。
其中
事实上,第
Multiple Linear Regression
关于多元回归的系数
(也称为偏回归系数),我们仍然可以按照 SLR 时的方式解释它们: 是在 不变时, 变化一个单位导致 的变化量。实际上这就引出了多元回归的一个巨大隐患:并不是所有的变量都完全不相关,一旦
之间有相关性存在,改变 的时候很难保证 不变,多元回归的系数解释性因此变差。虽然理论上确实可能存在完全不相关的变量,但是对应的数据也很难不相关。
,因此在线性回归中,位于中间(靠近 )的 拟合能力较弱(杠杆值低,对回归线的影响较弱)但是预测能力较好( 较小, 能够变动的范围小)。相反地,位于两端的 拟合能力较强但是预测能力较弱。事实上我们是不能轻易预测已有数据范围之外的
的响应的,理由如上所述,此时的预测能力很弱。
Lecture 8
Explanatory Data Analysis——Transformation
Why look at Y
一般来说
如果分布是高度有偏的,做变换把长尾的部分往中央收一收可以得到的效果有:
减小 SST,修正模型的显著性;
把拖尾方向可能的 outlier 向内收,有可能可以变成正常的数据来使用;另一侧原来数据比较集中,做变换如果可以将分布拉长的话便于观察其中的一些特征;
实际上 outlier 并不能随意的扔掉,做变换的想法是能够保留就尽量保留。有些时候很多现象就隐藏在出现了 outlier 这件事情上面,比如臭氧层空洞没有被尽早发现就是因为相关的数据被当成 outlier 扔掉了。
方差对于 skewed data 和 outlier 都比较敏感;
对于 skewed data,均值并不是中心位置很好的显示。
但通常来说做变换之前都需要三思:
- 做变换后可解释性会有问题,比如 Box-Cox Transformation 中奇怪的
取值会导致可解释性变差,实验数据有的时候需要保留单位,做变换之后会失去意义; - 会导致
改变; - 不一定能够改进正态性,做变换未必有好的效果;
- 做了变换得到结果之后,变回原始数据很可能破坏无偏性;
- 破坏了残差的分布。
有一些平替方案:GLM, resampling methods, non-parametric methods
另外我们一般不会对
Why log Transformation
对 right-skewed data 做 log transformation 的好处是显著多于其他类型的变换的:
,可以把绝对误差变为相对误差来讨论; 可以让数据的分布更对称,出于计算的考虑- 如果
全部都是正数,但 ,一个多元正态分布的数据全部是正数的概率非常小,假设不合理。
但是最大的问题就是可解释性。对于参数
MLR vs SLR
相比于 simple linear regression,MLR 的变量增多了之后需要考虑的问题也增加了,复杂度也变大了。
变量选择
破事很多:
- 单独一个
在模型里不显著也不能直接扔掉,它可能是 suppressor variable,会让别的变量显著 - 多个变量的模型显著不能推出单个变量显著
- 单变量模型中,变量显著性
检验和模型显著性 检验的 p-value 相等,因为 - 其余变量是否需要进入模型,可以先考虑残差对于其余各个变量的回归显著性,先测试最显著的变量进入模型
有的时候我们认为模型里变量越多越好,有的时候越少越好,这取决于做回归的目的:
- 回归模型是为了预测:变量越多或者说 adjusted
越大,解释的方差越多,预测水平越好 - 回归模型是为了解释:变量越少,explanatory variable 和 response 之间的关系越明确,解释性越好
总之,会随着模型中进入的变量而改变的参数有:
- 回归系数(
) - standard error
- 模型显著性
诡异的现象
有的时候会遇到 Significance & low
回到
的定义和 F 检验的本质可以发现, ,如果 非常大,即使 很小也和 很大之间并不矛盾。 的分母 实际上表征了数据的分散程度,数据非常分散的时候是可能导致 减小的。但是数据分散和存在线性并不矛盾,图中的两个线性关系当然都显著,但是 有巨大的差距。
Inference
多重线性回归的推断里面也有一个著名定理:
,于是有 ,以及: 和 相互独立
由此得到很多推断方法。
关于
的推断和 CI,主要关注 ,希望检验 。检验统计量是
,由此可以检查单个变量的显著性。注意此处所谓的显著性,指的是第 个变量最后一个进入模型时的显著性,无论它在 R table 里排列在哪里。和 general linear test 的结果一致。如果这一检验体现出来变量 不显著,绝大多数情况下是可以不保留的。 置信区间是 ,注意 的含义在上述已经提到。关于
的推断和 CI,考虑 。其估计量是
,于是 。因此 的 置信区间是考虑
,有 , ,因此 的 置信区间是
Lecture 9
Extra Sum of Squares
想法很简单,定义就是把一个新的变量加入模型后可以额外解释的方差,例如模型中本来存在
在多重回归中分解 sum of squares 的方式最常见的是 Type I method:
也就是所谓的 sequential sum of squares 的方法,在
anova()
中的列表就是这样的分解方式,分掉了所有的 SSR。
SAS 中的 sum of square 分解有三种模式,以考虑 A,B,AB 三种因子(2-way ANOVA)的情况如下排列:
可以看到 type I 就是按照 sequential 的模式进入模型,认为不同的变量有重要性的排序,先进入理论上来说最有必要进入模型的 A,再进入 B,最后进入 AB,分别计算 extra sum of squares;type II 忽略了交互效应 AB,对于 A 和 B 的单变量分解是与 type I 相同的;type III 和之前提到的 t 检验类似,每个模型的 extra sum of square 分解都是考虑它最后一个进入模型时带来的方差解释能力,但这里实际上存在一个问题,按照 hierarchy 的原则来说如果主效应 A,B 之一不显著/没有进入模型,是不能允许交互项 AB 进入模型的。
General Linear Test
Test Reduced Model
一种检验 full model 和 reduced model
之间关系的检验方法,例如对于存在五个变量
检验统计量是
事实上我们是 prefer 接受
Test Linear Hypothesis
实际上只要是关于回归系数的线性检验就都可以用 general linear test
来进行,比如
偏决定系数 & 偏相关系数
本质上说的是,模型中新进入的
实际上另一种表现形式可以是,我们认为
也就是说,实际上是对于
实际上偏相关系数
标准回归
Motivation
- 如果
之间的尺度差距过大会导致 的尺度也有差距,无法直接比较,也可能会影响变量显著性。 - 会导致 designed matrix 接近不满秩,计算逆矩阵出现问题。
Method——Correlation Transformation
考虑
其中
注意这个方法是有一些问题的,比如说破坏了残差的假设,以及强迫过原点。
标准回归的系数估计和 ANOVA table 都发生了改变,这是因为 SST 变成了
,ANOVA table 自然会变化。但是偏决定系数都是由偏相关系数直接决定的,所以没有变化。类似地,如果只对
做变换而不改变 ,会有系数发生改变,但是 ANOVA table 和偏决定系数都不变。
Suppressor Variable
如果有
一般来说脑补一下这种类似韦恩图的直观解释就好。
Lecture 10
Multicollinearity
关于多重共线性的一些研究,先考虑一些极端情况,然后观察多重共线性会导致什么后果。
Zero Collinearity
在几个解释变量完全没有共线性的情况称为正交设计,也就是说设计矩阵的各列之间是正交的。这是一个很好的情况,互相之间并不会干扰,有
结果就是无论进多少变量都不会影响单个
Linearly Dependent
一个比较极端的例子是完全线性相关,比如变量之间有
Multicollinearity
正常一些的情况就是普通的多重共线性,从回归结果来看多重共线性的一大特征就是模型整体显著,但是没有一个变量是显著的。回归结果的显著性是代表每个变量最后一个进入模型时的显著性,也就是说明每个变量几乎都是可以被前面进入模型的变量表示出来的。多重共线性有以下危害:
之间较大的多重共线性会导致对于单个变量的 增大,但是仍然是无偏估计。这也就说明了,出现多重共线性时 的方差很大,会导致 的估计值并不准确。举个例子来说,有的时候理论上 和 之间是正相关,但是得到的系数估计是负的,就有可能是因为 过大导致一组数据得到的结果距离“真实值”有很大的偏差,甚至从正相关变成了负相关。- Type I SS 和 Type II SS 的结果可能是不同的,因为变量之间对方差解释有竞争,也可能有 suppressor variable,进入模型的顺序在此时变得重要了起来,二者不同的结果可能导致判断上的问题。
- 两部分解释变量解释了同一部分的方差,导致模型解释能力下降。模型整体显著但每一个变量都不显著,很有可能是过拟合了。
- 从数学上来说
接近退化,求逆时导致数值误差增大。
有一些弥补的方案,但是要视建立模型的目的而定:
如果单纯是为了预测,其实增大模型的 sample size 是可以解决问题的
如果是为了解释性,需要做很多其他的努力,比如移除一些变量,对变量做变换,PCA 方法等等。
仍然存在很多问题,比如移除变量时万一移除了某个重要的类别型变量,可能会导致 Simpson's Paradox 出现,移除变量也会导致系数估计的方差减小,可能减小 MSE 但是会导致 bias 增大,但如果移除了一个重要的解释变量会导致它进入 error term,进而导致
的估计增大,需要 trade-off;做变换不一定能成功降低共线性还会造成解释上的困难,PCA 的解释性更差,等等。
Multicollinearity 可能有以下来源:
- 抽样时
的区域太小 - 理论上两个变量就是相关的却一起放进了模型,比如家庭收入和房屋面积
- 使用多项式回归
- 某些变量彼此是受同一隐含的因素影响的,比如一些 time series data
Polynomial Regression
多项式回归可能会导致很强的共线性,比如一个只取
有一个弥补的方案就是使用 centered data,为每一个变量减去一个均值,导致数值有正有负,再做非负的平方项就得到共线性不那么强的两个解释变量。实际上再进一步对数据做尺度上的标准化也可以,但是对系数估计没有任何影响。
对数据做中心化不会导致高阶项的系数改变,但有可能会导致低阶项的系数和 extra sum of squares 变化。另外如果显著性不随之变化的话也有可能是出现了正交设计的情况,需要按照结果分析。
交互项
模型中存在交互项的本质就是
如果
是连续型变量而 是类别型变量,回归模型中包含二者的交互项,例如:这就说明对于 group 1,也就是
时模型是 ,对于 group 2 也就是 时模型是 。希望检验的问题是 是否为 来查看两组回归线的斜率、截距之间是否存在差异。如果二者都是连续型变量也是类似的情况,相比之下类别型变量和连续型变量的交互效应有显著的分组意义。
Lecture 11
模型选择方法
一些没那么数学的
- 喜闻乐见的穷举,可惜只能处理不超过
个变量的情况 - stepwise greedy method,不喜闻乐见的要写代码,理解 idea 就好(心虚
一些准则
假设可供选择的 explanatory variable 有
观察
和 adjusted ,取后者较大的模型观察 mallow's
, ,实际上在操作中只能取 。- 如果
说明存在显著的误差,可能遗漏了重要的变量没有进入模型 - 如果
说明过拟合了,导致 - 如果
说明是 unbiased,取接近于 的 mallow's 中最小的一个对应的模型。
实际上理论的形式对于
有 。- 如果
, ,二者都是最小值对应的模型最合适。注意 BIC 实际上相比 AIC 加了一个更大的惩罚在模型的变量数上,更注重解释性;一般来说有
。Predicted Residual Error Sum of Squares:
,实际上有 。取使得
最小的模型。用来观察过拟合与否。Prediction
: ,如果模型里噪音过大,则有 ,此时 也是可以取负值的。如果有 则也可能是过拟合了,即使有些独立变量是显著的。
我们选择模型一般会考虑 adjusted
模型诊断
Partial Regression Plots
每个
Studentized Residuals
补充在 Lecture 6 里了。
Assessing Outliers
有以下指标可以考虑:
Difference caused to fitted values:
Studentized DFFIT:
。对于不太大的数据量,如果
则认为是强影响力点,大数据量时认为 是强影响力点。Cook's Distance:
,在 R 中认为某个点有强影响力的 threshold 是 ,事实上如果一个点的 Cook's distance 分布距离其他点较远,就可以认为是强影响力点了。Difference in Beta Estimates:
,其中 是 的第 个分量。对于大的数据量,如果
则认为是对于回归系数估计值的强影响力点,不太大的数据量时认为 是对于回归系数估计值的强影响力点。
Multicollinearity Diagnose
有以下两个指标:
- Variance Inflation
Factor:多重共线性经常导致方差膨胀,这是一个表征的指标,
,其中 指的是将 相对于其他 个 explanatory variable 做回归得到的决定系数。如果 则认为第 个变量 是会发生多重共线性的变量。 - Tolerance:
,判断准则类似上述。
Lecture 12
本节探讨 remedies for multiple linear regression,主要是异方差情况和多重共线性。
Equal Variance Remedy
这一部分主要处理模型发生异方差问题的情况。
也就是说,实际上有
可以看到 ordinary least square 条件得到的
Weighted Regression
简单来说,通过选取
最简单的情况,
均已知,则有 ,取
使得回归问题变为 ,记 ,由于 满足同方差条件,因此新的回归问题是符合条件的。注意新的回归问题
事实上没有改变系数 ,但系数估计 是改变了的,这是正常现象,因为对这一问题做 remedy 的主要原因就是假设不满足,导致按照 OLS 做出的系数估计不准确,因此 weighted regression 做出的修正也是相对于原系数 的。 仍然是无偏估计,也保证 是最小方差。稍微复杂一点的情况,虽然
未知但 均已知,取 即可。于是有:取
使得回归问题变为 ,记 ,由于 满足同方差条件,因此新的回归问题是符合条件的。新的回归系数估计是
, ,由此还可以做出对 的参数估计, ,其中 。一般情况下
是完全未知的,我们是在模型诊断中发现异方差的现象,因此不可能直接通过方差值推权重系数。这个时候一般有两种选择:重复试验取
的方差估计 ,于是权重系数为 。先对
进行 OLS 回归,取出此时的 residual 作为 的估计,取 作为权重即可。效果不明显时多迭代几次。
在观察 weighted least square 和 ordinary least square 模型差别时,注意:
以及 adjusted 的数值差别没有很强的意义,WLS 情况下原始数据 已经发生了变化,实际上 SST 也已经变了,没有什么比较的意义。- 需要关注的点是 residual standard error,越接近
越说明异方差的调整是成功的。 - 有时会观察到 WLS 情况下
在减小,似乎数据的分散程度在减小,这是因为 MSE 在减小。但是 WLS 和 OLS 情况下的 MSE 和 MST 都没有比较的意义,因此 的变化也没有研究的价值。唯一确定的是它会接近于 ,这一点可以证明异方差的调整效果是成功的。
Multicollinearity Remedy
如果存在多重共线性,主要发生的问题是
可以用 ridge regression 对多重共线性进行弥补。
Ridge Regression
主要的 idea 是如果
Ridge regression 的本质是对优化问题进行了修改。OLS
中的优化问题是求使得
在实际应用中,需要通过确定最佳的
应用岭回归来弥补模型的多重共线性的时候,既是为了消除共线性,也是在牺牲一些
LASSO & Elastic Net
LASSO 中把惩罚的
本质上都是 Bayesian modes。
Influencial Cases Remedy
更改一些更 robust 的优化模型,例如 least absolute deviation 和 least median of squares,缺点是算起来会比较困难。
或者考虑非参数模型。
Nonlinearity Remedy
考虑局部多项式回归/局部回归,总之是对数据进行分块,所谓的 lowess。
Lecture 13
One Factor ANOVA
(从生统笔记复制来的)
首先给出一个希望做检验的场景:
Cell means model
模型假设是
。其中,
是第 组的理论均值, i.i.d. 。注意到在这一模型假设中有 个参数,分别是 ,我们需要用得到的数据来对这些未知参数进行估计。考虑一些统计量作为参数的估计量:在这一模型中,我们关注的假设检验是
组实验之间是否存在差异,假设检验表示为 ,对应的备择假设即为 中存在不同的项。检验最经典的方法即为 ANOVA,analysis of variance。核心是以下的分解:可以观察到,
是组间差距,体现了不同组别之间的差别, 是组内差距,体现了同一组内各数据的偏差。注意 的自由度是 , 的自由度是 , 的自由度是 。两个统计量的期望是
, ,其中 。在
成立时, , 。因此 作为最终的检验统计量。当
时拒绝原假设,否则接受; ,其中 是一个非中心偏移量, 。也可以作为一个线性回归的问题来看待,design matrix 是 $ X =
$,系数向量是
,因此整体的回归方程是 ,注意这个回归问题是强迫过原点的。
Factor Effects Model
Factor Effects Model 是 Cell Means Model 的一个重新参数化的结果。模型假设是
。其中,
是整体的理论均值, 。它的参数比 cell mean model 多一个,分别是 ,但是自由度是相同的,因为 存在一个约束 ,如果没有这个约束会导致存在多组解。考虑一些统计量作为参数的估计量:在这一模型中,我们关注的假设检验仍然是
组实验之间是否存在差异,假设检验表示为 ,对应的备择假设即为 中存在不同的项。factor effects model 在参数的含义上比 cell mean model 更清晰。可以作为一个线性回归的问题来看待,design matrix 是 $ X =
$,系数向量是
,因此整体的回归方程是 ,注意这个回归问题的截距就是 ,不强迫过原点,相比 cell mean model 算是做了一点点优化。
Example
在做回归之前要注明哪些变量是 factor:
1
2
3
4> data$design = factor(data$design)
> fit = lm(cases ~ design, data = data)
> summary(fit)方便查看
的命令是过原点回归,但查看 MSR 的方式是不过原点回归。 ,由此计算出 后再得到每个 的值是 。
Inference on One-Way ANOVA
Confidence Interval for
事实上这只是个理论上可做的问题而已,现实中不会对
由于
当然也可以认为是
实际上这样做 t-test 的话 family-wise error rate 很大,即使做出显著的效果也很有可能是发生了 Type I Error。
Bonferroni Confidence
Intervals for
想要同时估计所有的
同样是 t-test,但过于保守了。对于较小的
Test Difference in Means
由于
由于一共有
- Tukey's HSD Method: 使用 q-test,取
;适用于两两检验。 - Scheffe's Method: 使用 F-test,取
,适用于线性组合的对照(contrast,见下)。实际上也过于保守了,导致 power 比较低。
Contrast
Concept
关于对照的具体定义是,取一组均值为
注意到
test statistic 是
Multiple Contrasts
可以利用 R 同时检验若干组 contrast,比如同时检验
实际上 linear hypothesis test 和 multiple comparison
的主要差别在于自由度,比如说对于
Lecture 14
依旧来自生统概论的笔记。
Two-Way ANOVA
首先给出一个希望做检验的场景:
每一组都是
Cell Mean Model
模型假设是
其中,
直接通过看图来观察两个因子之间是否存在交互效应、单因子是否显著这件事的时候,比较经典的情况就是以下两种:
上面第一张图中可以发现两条回归线之间存在斜率的差异,说明 B 因子对于 A
因子的效果存在影响,也就是存在交互效应;在
第二张图里更有两条回归线交叉,存在斜率的差异,交互效应显著;但主效应此时可能无法解释,尤其是如果两条回归线完全交叉成
在读 R code 的时候直接把所有的 estimation 读作 factor effect model 的系数,再代回就可以理解系数的来源了。这一部分在 factor effects model 里详述。
Factor Effects Model
模型假设是
其中,
这里面有
如果
考虑一些统计量作为参数的估计量:
Two factors ANOVA 的方差分解更复杂一些:
其中,
因素是否会导致差异? ,在 下有 因素是否会导致差异? ,在 下有 是否联合作用? ,在 下有
不能直接用 chi-square 统计量作为检验统计量的原因是实际上
注意
Two-Way ANOVA in R
模型假设是
其中,
这里面有
相应地,对应的 design matrix 也不尽相同。这里以
Coefficient table 里的 Intercept 代表的实际上是
由此我们可以依次按照
在这之后我们希望得到一个关于
Least Square Means
遇到非平衡设计,或者 covariates 的情况(连续型变量和类别性变量产生交互效应的情况),需要考虑 least square means 而不是 pooled means。简单来说 least square means 是均值的均值,达到了最小的方差,而 pooled means 就是全体数据的均值,在非平衡设计的情况下很可能引入偏差。
Balanced Test
对于一个平衡设计来说,它本质上是一个正交设计,模型中进一个因子还是两个因子都不会改变彼此的系数估计,只有自由度会有改变。least square mean 就是普通的 pooled mean,one-way ANOVA 和 two-way ANOVA 的结果一致。
Unbalanced Test
非平衡设计的时候 one-way ANOVA 的结果仍然是一样的,least square mean
和 pooled mean 得到的都是这一组内所有的观测值的平均。在这里就是认为 A
因子的 height1 level 的估计值是
但是新加入一个因子做 two-way ANOVA 就会导致 least square mean
下的系数估计发生变化,从 coefficient table 可以看出
事实上 least square mean 还可以称作 predicted mean 的原因就是,此处的
总之可以看到,unbalance test 会导致实验设计并不是正交的,B 因子的加入会对 A 因子的均值估计产生影响,这也是我们一般希望使用 balanced test 的理由。
Model Diagnose & Remedy
马上要告别应统了,于是不考也就不想学了,摆烂。
附录
常见重要分布
From Statistic Note P10, by V1ncent19
PGF | MGF | ||||
---|---|---|---|---|---|
Consider
Distribution: distribution with degree of freedom :Upper
-fractile of , satisfies ,$t_{,}={c}(Tc)=,Tt$ Distribution: distribution with degree of freedom and :- If
, then ; - If
, then ; 。
- If
Some useful lemmas in statistical inference:
For
independent with , thenFor
i.i.d. , thenFor
i.i.d. , i.i.d. ,d enote sample pooled variance , thenFor
i.i.d. , i.i.d. , thenFor
i.i.d. , then $ 2n{X}=2{i=1}^nX_i ^2{2n} $Remark:for
, .
分位数速查
来自 Package stats, version 4.2.1。
其实都可以直接查文档啦(,R 的文档还是很保姆式的。
t-分布模拟
t-distribution 下有四个函数,分别是 density, CDF, quantile
function(
dt(x, df, ncp, log = FALSE)
用来计算 PDF 的函数值
pt(x, df, ncp, lower.tail = TRUE, log.p = FALSE)
用来计算 CDF 的函数值 lower.tail = TRUE
时计算的是左边值
qt(p, df, ncp, lower.tail = TRUE, log.p = TRUE)
用来计算分位数,也即
一些我的作业里的函数参考:
1 | > qt(1 - 0.025, df = 8) |
这里计算的是
1 | > 2 * pt(-8.529, df = 8) |
这里是在计算一个 P-value,计算的是比 observed data
由于 t-distribution 是对称的,可以简化为
1 | > ncp <- 2.0/0.50 |
这是一个非中心的 t 检验,实际上是在计算 Power Function。
正态分布模拟
常用的三个函数是
dnorm
,pnorm
,qnorm
,含义与
t-分布中的 dt
,pt
,qt
相似。
1 | dnorm(x, mean = 0, sd = 1, log = FALSE) |
注意一般正态检验中都是使用标准正态分布,也就是不需要去改变
mean
和 sd
的默认值。
1 | > pnorm(0) |
F-分布模拟
1 | df(x, df1, df2, ncp, log = FALSE) |
注意 df1 = Inf
。
Chi-square 分布模拟
1 | dchisq(x, df, ncp = 0, log = FALSE) |
其他常用 R 命令
持续更新中,基本都是作业里扒出来的。
confidence interval
1 | confint(object, parm, level = 0.95, ...) |
注意 confidence coefficient 的默认值是 confint
函数是用于拟合模型参数的置信区间估计,例如:
1 | model <- lm(data) |
1 | 2.5 % 97.5 % |
这个附录怎么全咕了啊,不过无所谓了,这课我本来就是在摆烂(
完结撒花
一点都不 happily ever after,说是找到了新的方向,谁知道概率又会不会很艰难呢。
这课明显东西比统计推断多,但是导出成 PDF 一看比统推笔记少了二十多页。
总之都结束了,笑一个吧(