云子量化

什么是Cook's distance（库克距离）

作者：yunjinqi 类别：笔记日期：2025-05-14 16:08:42 阅读：293 次消耗积分：0 分

Cook's distance（库克距离）是回归分析中衡量单个观测点对模型参数估计影响程度的统计量，由统计学家R. Dennis Cook于1977年提出。其核心思想是通过综合残差（观测值与预测值的差异）和杠杆值（数据点对回归线位置的影响）来评估该点对模型稳定性的潜在威胁。以下从定义、公式、解读、应用及代码实现等方面展开详细分析：

一、定义与核心作用

核心目标
量化移除某个观测点后，模型参数估计值的变化幅度。若某点的Cook's D值较大，说明其存在会显著改变回归系数，可能由异常值或高杠杆值导致。
适用场景
• 异常值检测：识别对回归线位置或斜率产生不成比例影响的点。
• 高杠杆点识别：杠杆值高的点（如自变量取值极端）可能扭曲模型趋势。
• 模型稳健性评估：判断模型是否过度依赖某些特定观测值。

二、公式详解

基础公式
Cook's D的计算结合了标准化残差和杠杆值（hat values）：
$$
D_i = \frac{e_i^2}{p \cdot \text{MSE}} \cdot \frac{h_i}{(1 - h_i)^2}
$$
• 符号解释：
• (e_i)：第(i)个观测点的标准化残差（实际值与预测值之差除以残差标准差）。
• (h_i)：杠杆值（对角线元素），反映该点对回归线位置的影响。
• (p)：模型参数个数（含截距项）。
• (\text{MSE})：均方误差（残差平方和除以自由度）。
三、解读与判断标准
经验阈值
• D > 1：强影响力点（需优先检查数据质量）。
• D > 4/n：样本量较大时的通用阈值（如n=100时阈值为0.04）。
• 可视化判读：通过茎叶图或箱线图识别离群点（如距离超过均值2倍标准差）。
业务场景判断
• 数据错误：测量误差或录入错误直接剔除。
• 真实异常：保留但使用鲁棒回归（如Huber回归）或分层建模。

四、Python代码实现

使用statsmodels库（推荐）

import numpy as np
import statsmodels.api as sm
import matplotlib.pyplot as plt

# 生成示例数据（含高杠杆点）
np.random.seed(42)
X = np.random.rand(100, 1) * 10
X = np.hstack([np.ones((100, 1)), X])  # 添加截距项
y = 3 * X[:, 1] + np.random.randn(100) * 2

# 引入高杠杆点（第50个样本）
X[49, 1] = 20
y[49] = 3 * 20 + np.random.randn() * 2

# 拟合线性回归模型
model = sm.OLS(y, X).fit()

# 计算Cook's距离
influence = model.get_influence()
cooks_d = influence.cooks_distance[0]

# 可视化
plt.figure(figsize=(10, 6))
plt.stem(cooks_d, markerfmt="C0o", linefmt="C0--")
plt.axhline(y=4/len(y), color='r', linestyle='--', label='Threshold (4/n)')
plt.xlabel('观测点索引')
plt.ylabel("Cook's Distance")
plt.title('Cook's Distance分析')
plt.legend()
plt.grid(True)
plt.show()

手动计算（数学推导）

def manual_cooks_distance(X, y):
    n, p = X.shape
    X = sm.add_constant(X)  # 添加截距项

    # 全样本回归
    beta = np.linalg.inv(X.T @ X) @ X.T @ y
    residuals = y - X @ beta
    MSE = (residuals.T @ residuals) / (n - p)

    # 计算杠杆值
    H = X @ np.linalg.inv(X.T @ X) @ X.T
    h = np.diag(H)

    # 计算Cook's距离
    cooks_d = (residuals**2 / (p * MSE)) * (h / (1 - h)**2)
    return cooks_d

# 调用函数
cooks_d_manual = manual_cooks_distance(X, y)
print(f"手动计算的Cook's距离：{cooks_d_manual}")

五、应用场景扩展

经济学与医学研究
• 政策评估：检测经济指标中的异常数据点（如某地区GDP突变）。
• 临床试验：识别患者数据中的离群值（如药物反应极端案例）。
机器学习预处理
• 房价预测：剔除对回归线影响过大的异常房价样本。
• 信用评分：过滤收入或负债数据中的极端值。
环境科学
• 污染监测：识别传感器异常读数对污染模型的影响。

六、与其他诊断指标的关系

指标	核心作用	与Cook's D的关联
杠杆值	衡量观测点在自变量空间的极端性	高杠杆值可能放大Cook's D值
标准化残差	反映因变量偏离模型的程度	残差大但杠杆低时Cook's D可能不高
DFFITS	衡量删除点对预测值的影响	Cook's D是其平方的缩放版本

七、处理高Cook's D值的策略

数据核查
• 检查测量误差（如传感器故障导致异常读数）。
• 确认数据录入无误（如小数点错位）。
模型调整
• 鲁棒回归：使用Huber回归或RANSAC算法降低异常点影响。
• 加权回归：为高杠杆点分配更低权重。
变量变换
• 对自变量或因变量进行Box-Cox变换，缓解杠杆值或残差分布不均问题。

八、局限性

样本量敏感性：小样本中D值易受个别点影响，可能高估影响程度。
线性模型依赖：仅适用于线性回归，需扩展至广义线性模型（如Logistic回归）时需调整公式。
多维数据挑战：高维数据中杠杆值计算复杂，需结合正则化方法（如LASSO）进行降维。

总结
Cook's distance是回归诊断的核心工具，通过量化观测点对模型的影响，帮助识别需处理的异常或高杠杆数据。实际应用中需结合统计指标与业务逻辑综合决策，并辅以其他诊断方法（如残差分析、杠杆值图）全面评估模型稳健性。

错误反馈：

问题咨询：

系统当前共有 472 篇文章

量化的不仅是股票、期货、期权、债券等投资交易工具，更是量化自我，量化是人生漫长的修行

专注量化