Locally Weighted Regression(LWR,局部加权回归)是一种非参数回归方法,用于捕捉数据中的非线性关系。其核心思想是为每个预测点构建一个局部模型,通过加权邻近数据点进行拟合。以下是其关键要点:
核心原理
局部拟合:针对每个查询点 ( x ),仅利用其邻近数据点进行回归,而非全局数据。
加权机制:使用核函数(如高斯核)为邻近点分配权重,距离 ( x ) 越近的点权重越高,反之则权重衰减。
步骤
计算权重:对于查询点 ( x ),计算每个训练样本 ( x_i ) 的权重 ( w_i )。例如,高斯核:
$$
w_i = \exp\left(-\frac{(x_i - x)^2}{2\tau^2}\right)
$$
其中 ($ \tau$ ) 为带宽参数,控制邻域范围。加权最小二乘:求解使加权平方误差最小的参数 ( $\theta $):
$$
\min_\theta \sum w_i (y_i - \theta^T x_i)^2
$$
其闭式解为:
$$
\theta = (X^T W X)^{-1} X^T W y
$$
其中 ( W ) 为对角权重矩阵。预测:使用局部参数 ($\theta$ ) 预测 ( x ) 对应的 ( y )。
特点
非参数:依赖数据分布,无固定模型参数,需存储全部训练数据。
灵活性:适应复杂非线性关系,避免全局模型的欠拟合。
计算成本:每次预测需重新拟合,时间复杂度高,尤其在大数据集或高维时。
参数选择
带宽 ( $\tau$ ):通过交叉验证选择,过大导致欠拟合,过小导致过拟合。
核函数:高斯核常用,但也可选Epanechnikov核等,影响平滑性。
优缺点
优点:
灵活拟合非线性数据。
对局部变化敏感,异常值影响可通过权重降低。
缺点:
计算效率低,不适合大规模数据。
高维数据中距离度量失效(维度灾难)。
对带宽参数敏感。
应用场景
低维非线性回归(如时间序列平滑、传感器数据)。
小到中等数据集,需高精度拟合。
与相关方法对比
k近邻回归:使用固定数量邻近点,权重均匀;LWR则用连续权重衰减。
LOESS:类似LWR,但通常指局部多项式拟合(如线性或二次)。
总结
LWR通过局部加权拟合,在灵活性和准确性上表现优异,但受限于计算效率和维度问题。适用于低维、小数据集的复杂模式捕捉。
系统当前共有 463 篇文章