Frontier / LLM Measurement
LLM 作为测量工具:用预测变量做下游推断的偏差与纠正
用 LLM 给海量样本打标签很诱人,但把"预测出来的变量"当真值放进回归会带来系统性偏差。本页讲偏差来源与三种纠正法:金标准校正、PPI、DSL。
原理图解
一图看懂原理
先看这里
学完这一页你应该会什么
知道 LLM 测量误差通常不是经典误差(均值为 0、与一切独立),可能系统性且与 X 相关。
理解直接用预测变量回归会同时"有偏 + 低估不确定性"。
会用一个人工标注的金标准小样本做偏差校正。
了解 Prediction-Powered Inference (PPI):用金标准纠正预测的偏差项。
了解 DSL(设计型监督学习):按已知抽样概率加权纠偏。
学习路径
学习路径:从廉价预测到可信推断
按这条路径学习:先识别 LLM 误差是系统性的,再认识朴素回归偏差,最后用金标准 + PPI/DSL 纠正。
Step 1
Predict
LLM 给全样本廉价标注 Y_hat。
Y_hat=f(text)
Step 2
Bias
识别误差是否与 X 相关(系统性)。
e=Y_hat−Y
Step 3
Gold
随机抽样人工标注金标准子样本。
L: (Y, Y_hat)
Step 4
Correct
用 PPI / DSL 扣除偏差项。
theta_PPI
Step 5
Report
报告一致性、抽样设计与有效 CI。
valid CI
01 / 直觉
核心直觉
把 LLM 当一台便宜但有偏的测量仪器:它能测很多,但读数有系统漂移。
若直接用 LLM 标签 Y_hat 回归,等于把测量误差当成真实信号,偏差会进入系数;又因忽略了标注不确定性,标准误偏小、置信区间过窄。
纠正的共同思路:花小钱标注一个随机金标准子样本,用它估计并扣掉 LLM 的系统偏差——预测提供"量",金标准提供"准"。
02 / 数学
从预测标签到无偏的下游估计
01 / 预测变量
LLM 把输入映射成预测标签 Y_hat=f(text)。它与真值 Y 的差是测量误差 e=Y_hat−Y,一般非零均值,且可能与 X 相关。
Y_hat = f(text), e = Y_hat − Y02 / 朴素回归的偏差
用 Y_hat 替代 Y 回归 X,估计到的是 X 对 Y_hat 的关系,而不是对真值 Y 的关系;偏差正比于 X 对测量误差 e 的关系。误差与 X 相关时,这不是简单衰减,而是方向不定的偏差。
plim(beta_naive) = beta + Cov(X, e)/Var(X)03 / 金标准校正
在一个随机抽取、人工标注的子样本上同时有真值 Y 与预测 Y_hat,用它估计 LLM 的偏差结构并扣除。金标准越随机、越有代表性,校正越可靠。
labeled set L: (Y_i, Y_hat_i, X_i)04 / Prediction-Powered Inference
PPI 的点估计 = 全样本用 Y_hat 的估计,减去在金标准上的"纠偏项"(Y_hat 的估计 − Y 的估计)。既无偏,又比只用小金标准更紧。
theta_PPI = theta(Y_hat; all) − [theta(Y_hat; L) − theta(Y; L)]05 / DSL:设计型监督学习
按已知(研究者设计的)标注抽样概率 pi 加权,构造对 LLM 误差稳健的矩条件,得到一致估计与有效标准误。
weight 1/pi_i on labeled units in the moment03 / 代码
代码案例:从有偏的 LLM 标签到金标准纠偏
下面模拟一个与协变量相关的系统性 LLM 误差,展示朴素回归的偏差,再用金标准 / PPI 思路纠正。
案例 1:LLM 误差是系统性的,而非经典噪声
经典测量误差均值为 0、与一切独立;LLM 误差常与协变量相关,方向系统。
import numpy as np
rng = np.random.default_rng(1)
X = rng.normal(size=6)
Y = 1.0 * X
Y_hat = Y + 0.6 * X - 0.3 # error depends on X
print("error e = Y_hat - Y:", np.round(Y_hat - Y, 2))
print("corr(e, X) ~ 高,不是均值为0的独立噪声")预期输出
error e = Y_hat - Y: [ 0.34 -0.64 0.27 -0.99 0.13 0.02]
corr(e, X) ~ 高,不是均值为0的独立噪声怎么读这段代码
- 误差与 X 相关,意味着不是经典测量误差。
- 这种误差会把偏差直接带进系数,方向不一定是衰减。
- 因此不能只靠"加大样本"消除,必须校正。
案例 2:朴素回归被系统误差带偏
直接用 LLM 标签回归 X,系数偏离真值。
import numpy as np
rng = np.random.default_rng(0)
n = 4000
X = rng.normal(size=n)
Y = 1.0 * X + rng.normal(size=n)
Y_hat = Y + 0.6 * X - 0.3 + rng.normal(scale=0.5, size=n)
print("true beta = 1.00")
print("naive beta =", round(np.polyfit(X, Y_hat, 1)[0], 3))预期输出
true beta = 1.00
naive beta = 1.60怎么读这段代码
- 把预测标签当真值,系数从 1.0 偏到约 1.6。
- 偏差来自 X 对测量误差的相关。
- 若再忽略标注不确定性,置信区间还会过窄。
案例 3:金标准 / PPI 纠偏恢复真值
用一个随机人工标注小样本估计并扣除偏差项。
L = rng.choice(n, size=300, replace=False)
b_all = np.polyfit(X, Y_hat, 1)[0]
b_yhat_L = np.polyfit(X[L], Y_hat[L], 1)[0]
b_y_L = np.polyfit(X[L], Y[L], 1)[0]
b_ppi = b_all - (b_yhat_L - b_y_L)
print("PPI-corrected beta =", round(b_ppi, 3))预期输出
PPI-corrected beta = 1.01怎么读这段代码
- 纠偏项用金标准上"预测估计 − 真值估计"的差。
- 校正后系数回到约 1.0。
- 金标准提供"准",全样本预测提供"量",二者结合既无偏又更紧。
04 / 案例
案例:用 LLM 编码演讲"民粹语气"作为结果变量
- 研究问题:某事件是否提高了政客演讲的民粹语气?人工编码上万篇演讲成本太高。
- 用 LLM 给全部演讲打"民粹语气"分数作为结果 Y_hat,廉价但可能系统性高估/低估某类政客。
- 随机抽取数百篇做人工金标准编码,用 PPI 或 DSL 纠正 LLM 偏差,得到无偏的处理效应与有效置信区间。
- 可信报告需说明:标注 prompt 与版本、金标准抽样概率、LLM 与人工的一致性、纠偏方法,以及对 prompt 漂移的稳健性。
05 / 因果
接入因果设计:被测量的 D / Y / X 都要纠偏
LLM 测量进入因果研究时,无论它扮演处理、结果还是混淆,预测误差都会传导到处理效应估计。PPI / DSL 不只用于均值或回归系数,也可用于处理效应估计量。
01 / LLM 测结果 Y → 纠偏后估效应
把 LLM 打的结果分数接入 RCT / DiD,用金标准把系统偏差从效应估计里扣除。
tau_PPI = tau(Y_hat; all) − [tau(Y_hat; L) − tau(Y; L)]02 / LLM 测处理 D → 处理含误差
LLM 判定的处理状态含误差会衰减或扭曲效应;需信度评估或第二测量作工具。
03 / LLM 测混淆 X → 调整不足风险
用 LLM 测的混淆做控制,若测量不准会残留混淆(调整不足),需金标准校核。
04 / 设计先于规模
先定金标准抽样设计与纠偏方法,再扩大 LLM 标注规模——否则规模只是放大系统偏差。
三条红线:(1) LLM 误差多为系统性、与 X 相关,加样本不能消除;(2) 必须留随机金标准做纠偏与不确定性量化;(3) prompt / 模型版本漂移会改变测量口径,需固定与记录版本。
06 / 风险
常见误区
参考资料
- Angelopoulos et al. (2023), Prediction-Powered Inference, Sciencehttps://doi.org/10.1126/science.adi6000
- Egami, Hinck, Stewart, and Wei (2023), Using Imperfect Surrogates for Downstream Inference (DSL), NeurIPShttps://arxiv.org/abs/2306.04746
- Grimmer, Roberts, and Stewart (2022), Text as Data, Princeton University Presshttps://press.princeton.edu/books/hardcover/9780691207544/text-as-data
- Gentzkow, Kelly, and Taddy (2019), Text as Data, Journal of Economic Literaturehttps://doi.org/10.1257/jel.20181020