统计学中,贝叶斯多元线性回归是一种多元线性回归(预测结果为相关随机变量向量,而非标量随机变量的线性回归)的贝叶斯推断方法。这种方法的更一般论述见最小均方误差。
细节
考虑一回归问题,其中需要预测的自变量不是实标量而是相关实数组成的m维向量。与标准回归设置一样,有n个观测值,其中每个观测i包含k−1个解释变量,归为k维向量(添加值为1的虚拟变量,以允许截距系数)。对每个观测i,可以视作m个相关回归问题:
其中误差集都是相关的。等价地,也可以视作单一回归问题,其中结果是行向量,回归系数向量排在一起:
系数矩阵B是矩阵,其中每个回归问题的系数向量垂直排列在一起:
每个观测i的噪声向量服从联合正态分布,因此给定观测的结果是相关的:
可以将整个回归问题写成矩阵形式:
其中Y、E是矩阵。设计矩阵X是矩阵,观测如标准线性回归垂直排列:
经典频率学派线性最小二乘解利用摩尔-彭若斯广义逆,简单地估计回归系数矩阵:
求贝叶斯解,要先指定条件似然,再找到适当的共轭先验。与线性贝叶斯回归不同,可以指定一个自然的条件共轭先验(与规模相关)。
把条件似然写成[1]
误差表为,则有
寻找一个自然共轭先验——联合密度,其泛函形式与似然相同。由于似然在中是二次的,因此我们重写似然使其在(与经典样本估计的差)是正态的。
用与贝叶斯线性回归相同的技术,可用矩阵形式的平方和分解指数项。不过此处还要用到矩阵微分(克罗内克积和向量化变换)。
首先,应用平方和得到新的似然表达式:
我们想开发一种先验的条件形式:
其中服从逆威沙特分布,是矩阵中某种形式的正态分布。这是通过向量化变换实现的,它将似然从矩阵的函数变换为向量的函数。
令
其中表示矩阵A、B的克罗内克积,其是外积的推广。
则
产生的似然在中正态。
有了更易理解的似然,就可以找到自然的(条件)共轭先验了。
共轭先验分布
由向量化的得到的自然共轭先验形式为[1]
其中
后验分布
利用上述先验与似然,可得到后验[1]
其中。
记,涉及的项可以分类为
其中
现在可以用更有用的形式来写后验:
其形式为逆威沙特分布乘以矩阵正态分布:
此后验的参数由下式给出
另见
参考文献
- ^ 1.0 1.1 1.2 Peter E. Rossi, Greg M. Allenby, Rob McCulloch. Bayesian Statistics and Marketing. John Wiley & Sons, 2012, p. 32.