最小二乘回归直线是什么意思
来源:学生作业帮 编辑:大师作文网作业帮 分类:数学作业 时间:2024/11/17 12:40:53
最小二乘回归直线是什么意思
偏最小二乘回归是一种新型的多元统计数据分析方法,它与1983年由伍德和阿巴诺等人首次提出.近十年来,它在理论、方法和应用方面都得到了迅速的发展.密西根大学的弗耐尔教授称偏最小二乘回归为第二代回归分析方法.
偏最小二乘回归方法在统计应用中的重要性主要的有以下几个方面:
(1)偏最小二乘回归是一种多因变量对多自变量的回归建模方法.
(2)偏最小二乘回归可以较好地解决许多以往用普通多元回归无法解决的问题.在普通多元线形回归的应用中,我们常受到许多限制.最典型的问题就是自变量之间的多重相关性.如果采用普通的最小二乘方法,这种变量多重相关性就会严重危害参数估计,扩大模型误差,并破坏模型的稳定性.变量多重相关问题十分复杂,长期以来在理论和方法上都未给出满意的答案,这一直困扰着从事实际系统分析的工作人员.在偏最小二乘回归中开辟了一种有效的技术途径,它利用对系统中的数据信息进行分解和筛选的方式,提取对因变量的解释性最强的综合变量,辨识系统中的信息与噪声,从而更好地克服变量多重相关性在系统建模中的不良作用.
(3)偏最小二乘回归之所以被称为第二代回归方法,还由于它可以实现多种数据分析方法的综合应用.
偏最小二乘回归=多元线性回归分析+典型相关分析+主成分分析
由于偏最小二乘回归在建模的同时实现了数据结构的简化,因此,可以在二维平面图上对多维数据的特性进行观察,这使得偏最小二乘回归分析的图形功能十分强大.在一次偏最小二乘回归分析计算后,不但可以得到多因变量对多自变量的回归模型,而且可以在平面图上直接观察两组变量之间的相关关系,以及观察样本点间的相似性结构.这种高维数据多个层面的可视见性,可以使数据系统的分析内容更加丰富,同时又可以对所建立的回归模型给予许多更详细深入的实际解释.
一、 偏最小二乘回归的建模策略\原理\方法
1.1建模原理
设有 q个因变量{ }和p自变量{ }.为了研究因变量和自变量的统计关系,我们观测了n个样本点,由此构成了自变量与因变量的数据表X={ }和.Y={ }.偏最小二乘回归分别在X与Y中提取出成分 和 (也就是说, 是 的线形组合, 是 的线形组合).在提取这两个成分时,为了回归分析的需要,有下列两个要求:
(1) 和 应尽可能大地携带他们各自数据表中的变异信息;
(2) 与 的相关程度能够达到最大.
这两个要求表明, 和 应尽可能好的代表数据表X和Y,同时自变量的成分 对因变量的成分 又有最强的解释能力.
在第一个成分 和 被提取后,偏最小二乘回归分别实施X 对 的回归以及 Y对 的回归.如果回归方程已经达到满意的精度,则算法终止;否则,将利用 X被 解释后的残余信息以及Y 被 解释后的残余信息进行第二轮的成分提取.如此往复,直到能达到一个较满意的精度为止.若最终对 X共提取了 m个成分 ,…, ,偏最小二乘回归将通过实施 对 ,…, , 的回归,然后再表达成 关于原变量 ,…, , 的回归方程,k=1,2,…,q .
1.2计算方法推导
为了数学推导方便起见,首先将数据做标准化处理.X 经标准化处理后的数据矩阵记为 =( ,…, ) , 经标准化处理后的数据矩阵记为 =( ,…, ) .
第一步 记 是 的第一个成分, 是 的第一个轴,它是一个单位向量,既|| ||=1.
记 是 的第一个成分, = . 是 的第一个轴,并且|| ||=1.
如果要 , 能分别很好的代表X与Y中的数据变异信息,根据主成分分析原理,应该有
Var( ) max
Var( ) max
另一方面,由于回归建模的需要,又要求 对 有很大的解释能力,有典型相关分析的思路, 与 的相关度应达到最大值,既
r( , ) max
因此,综合起来,在偏最小二乘回归中,我们要求 与 的协方差达到最大,既
Cov( , )= r( , ) max
正规的数学表述应该是求解下列优化问题,既
s.t
因此,将在|| || =1和|| || =1的约束条件下,去求( )的最大值.
如果采用拉格朗日算法,记
s= - ( -1)- ( -1)
对s分别求关于 , , 和 的偏导并令之为零,有
= - =0 (1 -2)
= - =0 (1-3)
=-( -1)=0 (1-4)
=-( -1)=0 (1-5)
由式(1-2)~(1-5),可以推出
记 ,所以, 正是优化问题的目标函数值.
把式(1-2)和式(1-3)写成
(1-6)
(1-7)
将式(1-7)代入式(1-6),有
(1-8)
同理,可得
(1-9)
可见, 是矩阵 的特征向量,对应的特征值为 . 是目标函数值,它要求取最大值,所以, 是对应于 矩阵最大特征值的单位特征向量.而另一方面, 是对应于矩阵 最大特征值 的单位特征向量.
求得轴 和 后,即可得到成分
\x09
然后,分别求 和 对 , 的三个回归方程
(1-10)
(1-11)
(1-12)
式中,回归系数向量是
(1-13)
(1-14)
(1-15)
而 , , 分别是三个回归方程的残差矩阵.
第二步 用残差矩阵 和 取代 和 ,然后,求第二个轴 和 以及第二个成分 , ,有
=
=
是对应于矩阵 最大特征值 的特征值, 是对应于矩阵 最大特征值的特征向量.计算回归系数
因此,有回归方程
如此计算下去,如果 的秩是 ,则会有
(1-16)
(1-17)
由于, 均可以表示成 的线性组合,因此,式(1-17)还可以还原成 关于 的回归方程形式,即
k=1,2,…,q
是残差距阵 的第k列.
1.3交叉有效性
下面要讨论的问题是在现有的数据表下,如何确定更好的回归方程.在许多情形下,偏最小二乘回归方程并不需要选用全部的成分 进行回归建模,而是可以象在主成分分析一样,采用截尾的方式选择前m 个成分 ,仅用这m 个后续的成分 就可以得到一个预测性较好的模型.事实上,如果后续的成分已经不能为解释 提供更有意义的信息时,采用过多的成分只会破坏对统计趋势的认识,引导错误的预测结论.在多元回归分析一章中,我们曾在调整复测定系数的内容中讨论过这一观点.
下面的问题是怎样来确定所应提取的成分个数.
在多元回归分析中,曾介绍过用抽样测试法来确定回归模型是否适于预测应用.我们把手中的数据分成两部分:第一部分用于建立回归方程,求出回归系数估计量 ,拟合值 以及残差均方和 ;再用第二部分数据作为实验点,代入刚才所求得的回归方程,由此求出 .一般地,若有 ,则回归方程会有更好的预测效果.若 ,则回归方程不宜用于预测.
在偏最小二乘回归建模中,究竟应该选取多少个成分为宜,这可通过考察增加一个新的成分后,能否对模型的预测功能有明显的改进来考虑.采用类似于抽样测试法的工作方式,把所有n个样本点分成两部分:第一部分除去某个样本点 的所有样本点集合(共含n-1个样本点),用这部分样本点并使用h个成分拟合一个回归方程;第二部分是把刚才被排除的样本点 代入前面拟合的回归方程,得到 在样本点 上的拟合值 .对于每一个 =1,2,…,n,重复上述测试,则可以定义 的预测误差平方和为 ,有
(1-18)
定义Y\x09的预测误差平方和为 ,有
(1-19)
显然,如果回归方程的稳健性不好,误差就很大,它对样本点的变动就会十分敏感,这种扰动误差的作用,就会加大 的值.
另外,再采用所有的样本点,拟合含h 个成分的回归方程.这是,记第 个样本点的预测值为 ,则可以记 的误差平方和为 ,有
(1-20)
定义Y的误差平方和为 ,有
(1-21)
一般说来,总是有 大于 ,而 则总是小于 .下面比较 和 . 是用全部样本点拟合的具有h-1个成分的方程的拟合误差; 增加了一个成分 ,但却含有样本点的扰动误差.如果h个成分的回归方程的含扰动误差能在一定程度上小于(h-1)个成分回归方程的拟合误差,则认为增加一个成分 ,会使预测结果明显提高.因此我们希望 的比值能越小越好.在SIMCA-P软件中,指定
即 时,增加成分 就是有益的;或者反过来说,当 时,就认为增加新的成分 ,对减少方程的预测误差无明显的改善作用.
另有一种等价的定义称为交叉有效性.对每一个变量 ,定义
(1-22)
对于全部因变量Y,成分 交叉有效性定义为
(1-23)
用交叉有效性测量成分 对预测模型精度的边际贡献有如下两个尺度.
(1)\x09 当 时, 成分的边际贡献是显著的.显而易见, 与 是完全等价的决策原则.
(2)\x09对于k=1,2,…,q,至少有一个k,使得
这时增加成分 ,至少使一个因变量 的预测模型得到显著的改善,因此,也可以考虑增加成分 是明显有益的.
明确了偏最小二乘回归方法的基本原理、方法及算法步骤后,我们将做实证分析.
偏最小二乘回归方法在统计应用中的重要性主要的有以下几个方面:
(1)偏最小二乘回归是一种多因变量对多自变量的回归建模方法.
(2)偏最小二乘回归可以较好地解决许多以往用普通多元回归无法解决的问题.在普通多元线形回归的应用中,我们常受到许多限制.最典型的问题就是自变量之间的多重相关性.如果采用普通的最小二乘方法,这种变量多重相关性就会严重危害参数估计,扩大模型误差,并破坏模型的稳定性.变量多重相关问题十分复杂,长期以来在理论和方法上都未给出满意的答案,这一直困扰着从事实际系统分析的工作人员.在偏最小二乘回归中开辟了一种有效的技术途径,它利用对系统中的数据信息进行分解和筛选的方式,提取对因变量的解释性最强的综合变量,辨识系统中的信息与噪声,从而更好地克服变量多重相关性在系统建模中的不良作用.
(3)偏最小二乘回归之所以被称为第二代回归方法,还由于它可以实现多种数据分析方法的综合应用.
偏最小二乘回归=多元线性回归分析+典型相关分析+主成分分析
由于偏最小二乘回归在建模的同时实现了数据结构的简化,因此,可以在二维平面图上对多维数据的特性进行观察,这使得偏最小二乘回归分析的图形功能十分强大.在一次偏最小二乘回归分析计算后,不但可以得到多因变量对多自变量的回归模型,而且可以在平面图上直接观察两组变量之间的相关关系,以及观察样本点间的相似性结构.这种高维数据多个层面的可视见性,可以使数据系统的分析内容更加丰富,同时又可以对所建立的回归模型给予许多更详细深入的实际解释.
一、 偏最小二乘回归的建模策略\原理\方法
1.1建模原理
设有 q个因变量{ }和p自变量{ }.为了研究因变量和自变量的统计关系,我们观测了n个样本点,由此构成了自变量与因变量的数据表X={ }和.Y={ }.偏最小二乘回归分别在X与Y中提取出成分 和 (也就是说, 是 的线形组合, 是 的线形组合).在提取这两个成分时,为了回归分析的需要,有下列两个要求:
(1) 和 应尽可能大地携带他们各自数据表中的变异信息;
(2) 与 的相关程度能够达到最大.
这两个要求表明, 和 应尽可能好的代表数据表X和Y,同时自变量的成分 对因变量的成分 又有最强的解释能力.
在第一个成分 和 被提取后,偏最小二乘回归分别实施X 对 的回归以及 Y对 的回归.如果回归方程已经达到满意的精度,则算法终止;否则,将利用 X被 解释后的残余信息以及Y 被 解释后的残余信息进行第二轮的成分提取.如此往复,直到能达到一个较满意的精度为止.若最终对 X共提取了 m个成分 ,…, ,偏最小二乘回归将通过实施 对 ,…, , 的回归,然后再表达成 关于原变量 ,…, , 的回归方程,k=1,2,…,q .
1.2计算方法推导
为了数学推导方便起见,首先将数据做标准化处理.X 经标准化处理后的数据矩阵记为 =( ,…, ) , 经标准化处理后的数据矩阵记为 =( ,…, ) .
第一步 记 是 的第一个成分, 是 的第一个轴,它是一个单位向量,既|| ||=1.
记 是 的第一个成分, = . 是 的第一个轴,并且|| ||=1.
如果要 , 能分别很好的代表X与Y中的数据变异信息,根据主成分分析原理,应该有
Var( ) max
Var( ) max
另一方面,由于回归建模的需要,又要求 对 有很大的解释能力,有典型相关分析的思路, 与 的相关度应达到最大值,既
r( , ) max
因此,综合起来,在偏最小二乘回归中,我们要求 与 的协方差达到最大,既
Cov( , )= r( , ) max
正规的数学表述应该是求解下列优化问题,既
s.t
因此,将在|| || =1和|| || =1的约束条件下,去求( )的最大值.
如果采用拉格朗日算法,记
s= - ( -1)- ( -1)
对s分别求关于 , , 和 的偏导并令之为零,有
= - =0 (1 -2)
= - =0 (1-3)
=-( -1)=0 (1-4)
=-( -1)=0 (1-5)
由式(1-2)~(1-5),可以推出
记 ,所以, 正是优化问题的目标函数值.
把式(1-2)和式(1-3)写成
(1-6)
(1-7)
将式(1-7)代入式(1-6),有
(1-8)
同理,可得
(1-9)
可见, 是矩阵 的特征向量,对应的特征值为 . 是目标函数值,它要求取最大值,所以, 是对应于 矩阵最大特征值的单位特征向量.而另一方面, 是对应于矩阵 最大特征值 的单位特征向量.
求得轴 和 后,即可得到成分
\x09
然后,分别求 和 对 , 的三个回归方程
(1-10)
(1-11)
(1-12)
式中,回归系数向量是
(1-13)
(1-14)
(1-15)
而 , , 分别是三个回归方程的残差矩阵.
第二步 用残差矩阵 和 取代 和 ,然后,求第二个轴 和 以及第二个成分 , ,有
=
=
是对应于矩阵 最大特征值 的特征值, 是对应于矩阵 最大特征值的特征向量.计算回归系数
因此,有回归方程
如此计算下去,如果 的秩是 ,则会有
(1-16)
(1-17)
由于, 均可以表示成 的线性组合,因此,式(1-17)还可以还原成 关于 的回归方程形式,即
k=1,2,…,q
是残差距阵 的第k列.
1.3交叉有效性
下面要讨论的问题是在现有的数据表下,如何确定更好的回归方程.在许多情形下,偏最小二乘回归方程并不需要选用全部的成分 进行回归建模,而是可以象在主成分分析一样,采用截尾的方式选择前m 个成分 ,仅用这m 个后续的成分 就可以得到一个预测性较好的模型.事实上,如果后续的成分已经不能为解释 提供更有意义的信息时,采用过多的成分只会破坏对统计趋势的认识,引导错误的预测结论.在多元回归分析一章中,我们曾在调整复测定系数的内容中讨论过这一观点.
下面的问题是怎样来确定所应提取的成分个数.
在多元回归分析中,曾介绍过用抽样测试法来确定回归模型是否适于预测应用.我们把手中的数据分成两部分:第一部分用于建立回归方程,求出回归系数估计量 ,拟合值 以及残差均方和 ;再用第二部分数据作为实验点,代入刚才所求得的回归方程,由此求出 .一般地,若有 ,则回归方程会有更好的预测效果.若 ,则回归方程不宜用于预测.
在偏最小二乘回归建模中,究竟应该选取多少个成分为宜,这可通过考察增加一个新的成分后,能否对模型的预测功能有明显的改进来考虑.采用类似于抽样测试法的工作方式,把所有n个样本点分成两部分:第一部分除去某个样本点 的所有样本点集合(共含n-1个样本点),用这部分样本点并使用h个成分拟合一个回归方程;第二部分是把刚才被排除的样本点 代入前面拟合的回归方程,得到 在样本点 上的拟合值 .对于每一个 =1,2,…,n,重复上述测试,则可以定义 的预测误差平方和为 ,有
(1-18)
定义Y\x09的预测误差平方和为 ,有
(1-19)
显然,如果回归方程的稳健性不好,误差就很大,它对样本点的变动就会十分敏感,这种扰动误差的作用,就会加大 的值.
另外,再采用所有的样本点,拟合含h 个成分的回归方程.这是,记第 个样本点的预测值为 ,则可以记 的误差平方和为 ,有
(1-20)
定义Y的误差平方和为 ,有
(1-21)
一般说来,总是有 大于 ,而 则总是小于 .下面比较 和 . 是用全部样本点拟合的具有h-1个成分的方程的拟合误差; 增加了一个成分 ,但却含有样本点的扰动误差.如果h个成分的回归方程的含扰动误差能在一定程度上小于(h-1)个成分回归方程的拟合误差,则认为增加一个成分 ,会使预测结果明显提高.因此我们希望 的比值能越小越好.在SIMCA-P软件中,指定
即 时,增加成分 就是有益的;或者反过来说,当 时,就认为增加新的成分 ,对减少方程的预测误差无明显的改善作用.
另有一种等价的定义称为交叉有效性.对每一个变量 ,定义
(1-22)
对于全部因变量Y,成分 交叉有效性定义为
(1-23)
用交叉有效性测量成分 对预测模型精度的边际贡献有如下两个尺度.
(1)\x09 当 时, 成分的边际贡献是显著的.显而易见, 与 是完全等价的决策原则.
(2)\x09对于k=1,2,…,q,至少有一个k,使得
这时增加成分 ,至少使一个因变量 的预测模型得到显著的改善,因此,也可以考虑增加成分 是明显有益的.
明确了偏最小二乘回归方法的基本原理、方法及算法步骤后,我们将做实证分析.
Eviews回归是否等于最小二乘回归?
求助!用Eviews最小二乘回归法得出的结果各个指标分别是什么意思?
多元线性回归,主成分回归和偏最小二乘回归的联系与区别
Eviews 8.0 怎么实现加权最小二乘回归分析?
最小二乘估计中线性回归方程的系数公式 还有那个很扭的符号是什么意思
回归直线方程的系数a,b的最小二乘估计a,b,使函数Q(a,b)最小,Q函数指?
用Eviews做最小二乘估计的回归,请问这个模型通过检验了嘛?
求matlab应用公式 采用最小二乘迭代法拟合成一般非线性函数回归分析
回归直线方程的系数a,b的最小二乘估计a,b时,使函数Q(a,b)取最小值最小,其中函数Q(a,b)等于?
谁电脑中装有EVIEWS 帮我做个加权最小二乘回归 我有数据.
用Eviews做最小二乘回归出来的Sum squared resid取值在多大范围内是正常的?
matlab 最小二乘拟合