이번 주에는 두 편의 논문 Estimation and Inference of Heterogeneous Treatment Effects using Random Forests와 이를 이용하여 의학 연구에 이용한 JAMA의 Heterogeneous Treatment Effects of Therapeutic-Dose Heparin in Patients Hospitalized for COVID-19 논문을 살펴 보겠습니다. 먼저는 Estimation and Inference of Heterogeneous Treatment Effects using Random Forests 논문부터 살펴보도록 하겠습니다.

Introduction

많은 경우에 우리는 어떤 요인이 대상들에게 어떻게 다르게 나타나는지 관심을 가지는 경우가 많습니다. 예를 들어, 특정 약이 특정 개인에게 효과가 있을지 여부, 정부 정책이 개개인에게 어떻게 다가올지의 여부, 그리고 A/B test와 같은 것들이 그러한 예시가 되겠지요. 현재까지 이어지는 통계학의 역사 속에서 randomized clinical trial (RCT)와 같은 것들은 control group과 treatment group들의 크기가 너무 커서 세부적인 subgroup들에 대한 통계적 유의한 효과 차이(heterogeneous treatment effect: HTE)를 보기가 쉽지 않았습니다. 하지만 최근에 와서야 causal inference라는 기법이 개발되며 이러한 것들을 조금이나마 가능케 만들어 주었습니다.

HTE에 대한 고전적 접근은 nearest-neighborhood matching, kernel method, series matching 같은 것들이 있었습니다. 이러한 방법들은 covariate의 개수가 적은 경우에는 잘 동작하지만 curse of dimension과 같은 이유 때문에 covariate의 개수가 증가하면 급격히 나쁜 성능을 보입니다.

본 연구에서는 random forest를 도구로 써서 causal inference를 수행하는 방식을 제안합니다. 이를 causal forest라고 부르겠습니다.

Causal Forests

Treatment Estimation with Unconfoundedness

Confounding factor, Confoundedness

어느 약의 효과를 추정하기 위해, 약에 대한 치료 효과를 측정하는 실험이 있다고 합시다. 그런데 알고 보니, 이 약은 성별에 따라서 효과가 다릅니다. 우리는 이러한 경우에, 성별이 약효의 confounding factor이라고 합니다. 즉, 도표로 그리면

과 같은 모양이 될 것입니다. 다른 말로 하면, X에 따른 Y의 효과를 보려고 하는데 X와 Y에 모두 영향을 주는 변수 Z가 있으면 Z를 confounding factor이라고 하는 것이지요.

이제 본격적으로 들어가서, $n$개의 i.i.d training example들이 있다고 하고 이를 $i=1,\cdots,n$으로 labe합시다. 각 $i$번째 sample은 feature vector $X_i\in[0,1]^d$로 $d$개의 값을 0에서 1 사이로 갖는 변수라고 하고 response (=outcome) $Y_i$는 실수이며 treatment indicator, 즉 treatment를 받았는지 여부를 나타내주는 변수는 $W_i\in\{0,1\}$이라고 합시다. 그러면 치료를 받은 경우의 outcome을 $Y_i^{(1)}$, 치료를 받지 않은 경우의 outcome을 $Y_i^{(0)}$이라고 하고 treatment의 효과를

$$ \tau(x)=\mathbb{E}\big[Y_i^{(1)}-Y_i^{(0)}\big|X_i=x\big] $$

로 정의합시다. 위 식을 풀어 설명하면 치료를 받은 경우($Y_i^{(1)}$)에서 치료를 받지 않은 경우($Y_i^{(0)}$)를 각 개인마다 빼는 것으로 이해할 수 있습니다.

우리의 목적은 위 $\tau(x)$를 추정하는 것입니다. 사람마다 어떤 효과를 볼 지를 추정하는 것이지요. 하지만 문제가 있습니다. 어떤 사람이 치료를 받는 것과 치료를 받지 않는 것은 동시에 관찰할 수 없다는 것이지요. 결국, 치료를 받거나($Y_i^{(1)}$), 치료를 받지 않거나($Y_i^{(0)}$) 둘 중 하나만 관찰할 수 있다는 말입니다. 우리는 둘 중 하나를 관찰한 것을 사실(fact)라고 하고 관찰하지 못한 것을 반사실(counterfactual)이라고 부를 것입니다.

앞서 말한 이유 때문에 일반적으로 $\tau(x)$를 관찰된 데이터로부터 추정하는 것은 불가능합니다. 하지만, 몇 가지 가정을 끼워넣으면 제한된 상황에서는 가능해지기도 합니다. 바로 이 가정 중에 하나가 unconfoundedness입니다. Confounded가 아니라는 말이지요. 이는 treatment assignment $W_i$가 $X_i$가 주어진 경우 potential outcome $Y_i$와 독립이라는 가정이고 다음처럼 표기합니다:

$$ \bigg\{Y_i^{(0)},Y_i^{(1)}\bigg\}\perp W_i\bigg| X_i $$

이 unconfoundedness의 motivation은 randomized experiement입니다. 우리는 환자들을 random하게 배정하기 때문에 환자 정보가 주어졌다고 하더라도($X_i$), 치료 여부($W_i$)와 outcome($Y_i$)은 독립이라는 것을 가정할 수 있겠지요.

Unconfoundedness를 가정하면 우리는 다음과 같은 식 전개를 할 수 있습니다:

$$ \begin{align*}\tau(x)&=\mathbb{E}\big[Y_i^{(1)}-Y_i^{(0)}\big|X_i=x\big]\\ &=\mathbb{E}\big[Y_i^{(1)}\big|X_i=x\big]-\mathbb{E}\big[Y_i^{(0)}\big|X_i=x\big]\\ &=\mathbb{E}\big[Y_i^{(1)}\big|X_i=x\big]\frac{e(x)}{e(x)}-\mathbb{E}\big[Y_i^{(0)}\big|X_i=x\big]\frac{1-e(x)}{1-e(x)}\\ &=\mathbb{E}\big[Y_i^{(1)}\big|X_i=x\big]\frac{\mathbb{E}[W_i|X_i=x]}{e(x)}-\mathbb{E}\big[Y_i^{(0)}\big|X_i=x\big]\frac{\mathbb{E}[1-W_i|X_i=x]}{1-e(x)}\\ &=\mathbb{E}\bigg[\frac{Y_i^{(1)}W_i}{e(x)}-\frac{Y^{(0)}(1-W_i)}{1-e(x)}\bigg|X_i=x\bigg]\\ &=\mathbb{E}\bigg[Y_i\bigg(\frac{W_i}{e(x)}-\frac{1-W_i}{1-e(x)}\bigg)\bigg|X_i=x\bigg] \end{align*} $$