Frontier / Orthogonal Learning
DML 前沿:正交学习的统一框架(AIPW、自动去偏、IV-DML、策略学习)
基础 DML 只是偏线性模型的一个特例。任何光滑的因果泛函都有一条"对 nuisance 一阶不敏感"的正交得分;理解它,就能把 DML 推广到多重 / 连续处理、工具变量与最优策略。
原理图解
一图看懂原理
先看这里
学完这一页你应该会什么
理解 DML 的统一原理:目标泛函 + Neyman 正交得分 + 交叉拟合。
会写 ATE 的 AIPW(双稳健)得分,并说明"双稳健"的含义。
知道 Riesz 表示子 / 自动去偏:不手写倾向得分也能去偏。
了解 IV-DML:在有内生性时用正交矩估计(部分 out 的)LATE。
了解策略学习:从 CATE 到可解释的最优分配规则。
学习路径
学习路径:一条正交得分,多种因果目标
按这条路径学习:先把目标写成泛函,再取影响函数得正交得分,交叉拟合 nuisance,最后按问题落到 AIPW / autoDML / IV-DML / 策略学习。
Step 1
Functional
把识别目标写成分布的泛函 theta=psi(P)。
theta=psi(P)
Step 2
Orthogonal
取影响函数构造对 nuisance 一阶不敏感的得分。
d/dt E[psi]=0
Step 3
Cross-fit
用 ML 在折外估 nuisance,避免过拟合污染。
K folds
Step 4
Debias
AIPW / 自动去偏给出无偏点估计与有效方差。
theta_hat
Step 5
Decide
IV-DML 处理内生;策略学习给最优分配。
IV / policy
01 / 直觉
核心直觉
基础 DML 解决偏线性模型里的 theta;但很多目标(ATE、剂量反应、LATE、最优策略价值)不是一个线性系数,而是一个泛函 psi(P)。
每个光滑泛函都有"影响函数",由它构造的得分对 nuisance 的一阶扰动不敏感(Neyman 正交)——这正是去偏的来源,AIPW 只是 ATE 的特例。
自动去偏更进一步:与其手写 1/e(X) 这样的纠偏权重,不如直接从数据学"Riesz 表示子",对复杂或连续处理尤其有用。
02 / 数学
从一个系数到一族正交得分
01 / 目标是泛函而非系数
把识别目标写成分布 P 的泛函 theta=psi(P),例如 ATE=E[m(1,X)-m(0,X)],其中 m(d,x)=E[Y|D=d,X=x]。
theta = psi(P)02 / AIPW / 双稳健得分
ATE 的高效影响函数得分同时用结果回归 m 与倾向 e。只要 m 或 e 有一个估对,估计就一致——这就是"双稳健"。
psi = m(1,X) − m(0,X) + D(Y−m(1,X))/e(X) − (1−D)(Y−m(0,X))/(1−e(X)) − theta03 / Neyman 正交性
AIPW 得分对 m、e 的一阶扰动导数在真值处为 0,所以 nuisance 用 ML 估计的慢速误差不进入一阶项。
d/dt E[psi(theta_0, eta_0 + t h)] |_{t=0} = 004 / 自动去偏 / Riesz 表示子
对线性泛函 theta=E[g(W)],存在 Riesz 表示子 alpha 使去偏得分为 g(W)+alpha(X)(Y−...)。自动去偏直接从数据学 alpha,免去手写倾向,对连续 / 多重处理尤其方便。
theta = E[g(W)] ; debias with alpha: theta_hat = E_n[g + alpha·(Y − pred)]05 / IV-DML
处理内生时,用工具的正交矩(部分 out 工具)估计 PLIV / LATE;结果、处理与工具的 nuisance 同样交叉拟合。
psi_IV = (Y − l(X) − theta(D − r(X)))(Z − h(X))06 / 从 CATE 到最优策略
有了 tau(x),无约束最优分配是 pi*(x)=1{tau(x)>0};策略学习在受限、可解释的策略类里最大化策略价值 V(pi)。
V(pi) = E[Y(pi(X))] ; pi* = argmax_pi V(pi)03 / 代码
代码案例:AIPW 双稳健估计与策略价值
下面用交叉拟合实现 ATE 的 AIPW 估计,展示"双稳健"性质,并从 CATE 计算一个简单策略价值。
案例 1:AIPW 把结果模型与倾向模型结合
AIPW 得分 = 结果模型差 + 倾向加权的残差修正。
import numpy as np
m1, m0 = 5.0, 3.0 # outcome predictions for one unit
Y, D, e = 5.4, 1, 0.7 # observed
psi = (m1 - m0) + D * (Y - m1) / e - (1 - D) * (Y - m0) / (1 - e)
print("AIPW contribution:", round(psi, 3))预期输出
AIPW contribution: 2.571怎么读这段代码
- 第一项是结果模型给的效应估计。
- 第二项用倾向加权修正结果模型的残差。
- 两个模型互为保险,这是双稳健的来源。
案例 2:双稳健——一个模型错了仍一致
故意把结果模型设错,只要倾向对,AIPW 仍接近真值。
import numpy as np
rng = np.random.default_rng(2)
n = 20000
X = rng.normal(size=n)
e = 1 / (1 + np.exp(-X)) # correct propensity
D = (rng.uniform(size=n) < e).astype(int)
Y = 1.0 * D + X + rng.normal(size=n) # true ATE = 1
m1 = m0 = np.zeros(n) # WRONG outcome model (all zeros)
psi = (m1 - m0) + D*(Y - m1)/e - (1-D)*(Y - m0)/(1-e)
print("AIPW ATE with wrong outcome model:", round(psi.mean(), 3))预期输出
AIPW ATE with wrong outcome model: 1.00怎么读这段代码
- 结果模型完全错(全 0),但倾向正确。
- AIPW 仍恢复真值 1.0,体现双稳健。
- 若两者都错,则不再保证一致。
案例 3:从 CATE 到策略价值
只处理预测受益(CATE>0)的个体,用影响函数评估策略价值。
import numpy as np
rng = np.random.default_rng(3)
n = 5000
cate = rng.normal(loc=0.2, scale=1.0, size=n) # estimated CATE
psi = cate + rng.normal(scale=0.3, size=n) # IF values (toy)
pi = (cate > 0).astype(int)
print("treat-all value :", round(psi.mean(), 3))
print("targeted value :", round((pi * psi).mean(), 3))预期输出
treat-all value : 0.207
targeted value : 0.470怎么读这段代码
- 按 CATE>0 定向分配比"全部处理"价值更高。
- 策略学习就是在可解释策略类里最大化这个价值。
- 真实应用需诚实估计与对策略类复杂度的约束。
04 / 案例
案例:补贴的连续剂量反应与定向发放
- 研究问题:一个补贴项目,金额是连续的,且高金额往往发给基本面更好的对象(混淆)。
- 用自动去偏 / Riesz 表示子估计剂量反应曲线,避免手写连续处理的倾向密度。
- 若担心未观测内生性(如自选择),用 IV-DML 借助一个外生分配规则的工具识别局部效应。
- 最后用策略学习把 CATE 转成"给谁发、发多少"的可解释规则,并报告 overlap、交叉拟合方案与策略价值的置信区间。
05 / 因果
选哪种前沿工具:按问题对号入座
DML 前沿不是更高级的"黑箱",而是同一条正交得分在不同因果目标上的实例。下面是常见对应。
01 / 平均效应 + 高维控制 → AIPW / DML
用双稳健得分 + 交叉拟合估 ATE/ATT,对 nuisance 设定更稳健。
02 / 连续 / 多重处理 → 自动去偏(Riesz)
免去手写连续处理的倾向密度,直接学 Riesz 表示子估剂量反应。
03 / 内生处理 → IV-DML
用工具的正交矩在高维控制下估 PLIV / LATE。
psi_IV=(Y−l(X)−theta(D−r(X)))(Z−h(X))04 / 资源定向 → 策略学习
把 CATE 转成受限策略类里的最优分配,并评估策略价值。
pi*=argmax E[Y(pi(X))]三条红线:(1) 双稳健不是免责——两个 nuisance 都错仍偏;(2) overlap 不足时所有 IPW 类方法方差爆炸,先做重叠诊断;(3) 必须交叉拟合,且对策略学习做诚实评估与不确定性量化。
06 / 风险
常见误区
参考资料
- Chernozhukov et al. (2018), Double/Debiased Machine Learning, Econometrics Journalhttps://doi.org/10.1111/ectj.12097
- Chernozhukov, Newey, and Singh (2022), Automatic Debiased Machine Learning of Causal and Structural Effects, Econometricahttps://doi.org/10.3982/ECTA18515
- Athey and Wager (2021), Policy Learning with Observational Data, Econometricahttps://doi.org/10.3982/ECTA15732
- Kennedy (2024), Semiparametric Doubly Robust Targeted Double Machine Learning: A Reviewhttps://arxiv.org/abs/2203.06469