云子量化

如何把一个右偏的样本转换成标准正态分布？

作者：yunjinqi 类别：笔记日期：2025-03-23 15:01:16 阅读：203 次消耗积分：0 分

针对存在严重偏度的数据，可以通过以下方法修正使其接近正态分布。以下分步骤讲解常用技术及其适用场景：

一、基础数据变换方法

1. 对数变换 (Log Transformation)

适用场景：右偏（正偏）分布，数据值全为正
公式: $$ y = \log(x + c) \quad (c > 0 \text{，当数据含0时需加常数}) $$
Python实现：

  data_transformed = np.log(data + 1e-5)  # 避免对零取对数

2. 平方根变换 (Square Root Transformation)

适用场景：轻度右偏，数据值非负
公式： $$ y = \sqrt{x + c} \quad (c \geq 0) $$
Python实现：

  data_transformed = np.sqrt(data + 0.5)

3. Box-Cox变换

适用场景：任意偏度，数据值全为正
公式： $$ y(\lambda) = \begin{cases}
\frac{x^\lambda - 1}{\lambda} & \lambda \neq 0 \\\ln(x) & \lambda = 0
\end{cases} $$
Python实现：

  from scipy.stats import boxcox
  data_transformed, lambda_ = boxcox(data)

4. Yeo-Johnson变换

适用场景：包含正负值的数据
公式： $$ y(\lambda) = \begin{cases}
\frac{(x+1)^\lambda - 1}{\lambda} & x \geq 0, \lambda \neq 0 \\\ln(x+1) & x \geq 0, \lambda = 0 \\\frac{1 - (1 - x)^{2-\lambda}}{2-\lambda} & x < 0, \lambda \neq 2 \\-\ln(1 - x) & x < 0, \lambda = 2
\end{cases} $$
Python实现：

  from scipy.stats import yeojohnson
  data_transformed, lambda_ = yeojohnson(data)

二、进阶修正技术

1. 分位数变换 (Quantile Transformation)

原理：将数据强制映射到正态分布分位数
优势：适用于任意分布形态
Python实现：

  from sklearn.preprocessing import QuantileTransformer
  qt = QuantileTransformer(output_distribution='normal')
  data_transformed = qt.fit_transform(data.reshape(-1,1))

2. 幂变换 + 标准化

步骤：

先进行Box-Cox/Yeo-Johnson变换
再应用Z-score标准化

代码：

  from sklearn.preprocessing import PowerTransformer, StandardScaler
  pt = PowerTransformer(method='yeo-johnson')
  scaler = StandardScaler()
  data_transformed = scaler.fit_transform(pt.fit_transform(data.reshape(-1,1)))

3. 非参数方法

核密度估计重采样：

  from sklearn.neighbors import KernelDensity
  kde = KernelDensity(kernel='gaussian').fit(data.reshape(-1,1))
  new_samples = kde.sample(1000)  # 生成新样本

三、验证正态性

1. 统计检验

Shapiro-Wilk检验（样本量 < 5000）：

  from scipy.stats import shapiro
  stat, p = shapiro(data_transformed)
  print(f'P值 = {p:.4f}')  # p > 0.05则接受正态性假设

2. 可视化验证

QQ图：

  import statsmodels.api as sm
  sm.qqplot(data_transformed, line='45')
  plt.show()

分布对比图：

  sns.histplot(data_transformed, kde=True)
  x = np.linspace(-4,4,100)
  plt.plot(x, stats.norm.pdf(x), color='red')  # 叠加理论正态曲线

四、选择方法的决策树

graph TD
    A[数据包含负值?] -->|是| B[使用Yeo-Johnson变换]
    A -->|否| C{数据含零?}
    C -->|是| D[Box-Cox变换 + 常数偏移]
    C -->|否| E[Box-Cox变换]
    B --> F[验证正态性]
    D --> F
    E --> F
    F -->|不通过| G[尝试分位数变换]
    F -->|通过| H[完成]
    G --> H

五、注意事项

不可逆性：变换后数据失去原始量纲，需谨慎解释结果
过拟合风险：避免对训练集外的数据单独计算变换参数
阈值选择：Box-Cox的λ参数应通过最大似然估计确定
非万能性：极端偏态数据可能需要结合其他方法（如截断异常值）

六、完整代码示例

import numpy as np
import matplotlib.pyplot as plt
from scipy import stats
import seaborn as sns
from sklearn.preprocessing import PowerTransformer

# 生成右偏数据
original_data = np.random.exponential(scale=2, size=1000)

# 修正偏度
pt = PowerTransformer(method='yeo-johnson')
transformed_data = pt.fit_transform(original_data.reshape(-1,1)).flatten()

# 可视化对比
fig, axes = plt.subplots(2, 2, figsize=(12,10))

# 原始数据直方图
sns.histplot(original_data, kde=True, ax=axes[0,0])
axes[0,0].set_title(f'原始数据 (偏度={stats.skew(original_data):.2f})')

# 原始数据QQ图
stats.probplot(original_data, dist="norm", plot=axes[0,1])
axes[0,1].set_title('原始数据QQ图')

# 变换后直方图
sns.histplot(transformed_data, kde=True, ax=axes[1,0])
axes[1,0].set_title(f'修正后数据 (偏度={stats.skew(transformed_data):.2f})')

# 变换后QQ图
stats.probplot(transformed_data, dist="norm", plot=axes[1,1])
axes[1,1].set_title('修正后QQ图')

plt.tight_layout()
plt.show()

通过系统性地应用这些方法，可以有效降低数据偏度，使其更接近正态分布，从而满足后续统计分析或机器学习模型的前提假设。

错误反馈：

问题咨询：

系统当前共有 472 篇文章

量化的不仅是股票、期货、期权、债券等投资交易工具，更是量化自我，量化是人生漫长的修行

专注量化