Sensitivity Method for
Observational Comparison
逸見 昌之 (総合研究大学院大学)
江口 真透 (統計数理研究所,
総合研究大学院大学)
群比較モデル
N人の対象者が2群に割りつけられているとき、
各群で観測される結果変量を比較する
y:結果変量
z:観測の状態(z =1,2)
通常の統計的推測では、割りつけはランダムに
行われている(割りつけ方の影響は無視できる)
ことを前提とする
Copas-Liモデル
y   x   e1
T
r   x  e2
T
r 0
r0
z 1
z2
 0  1
 e1 
  ~ N   , 
 e2 
 0  
r 0
r0
 
 
1 
y is observed
y is missing
現実のモデルは、
f ( y | x, r  0) 
 (
1
(
y  Tx

 Tx
1  2


)

y  Tx
1  2

)/ ( T x)
E( y | x, r  0)   T x    ( T x)
T 
 Tx

y


x

P(r  0 | x, y)  

2
2
 1 


1




Rosenbaum の log odd ratio
 (r  0 | y ) (r  0) 
  log

 (r  0) (r  0 | y ) 
 const 
尤度解析
全尤度関数は
L (  ,  ,  ,  )  n log  
n
1
2
  log  (ui ) 
ui 
T
2
(
y


x
)
i
i
2 
T
log

(

xi ),

i  n 1
1

1  2
 T xi 
i 1
N
i 1
ここで
n
1  2
yi   T xi

ρプロファイル尤度
L* (  )  max
L(  ,  ,  ,  )
 , , | 
を考えよう
L * (0)  0 ,
L * (0)  0
yi  ˆ T xi 3
L * (0)  K1  (
)
ˆ
i 1
n
 yi  ˆ T xi 4 
L * (0)  K 2  (
)  3
ˆ
i 1 

n
Coventry職業会計検査院データ
y  収入,
x  ( 1, 性別 , 年齢, 年齢  年齢 )
N = 1435人, n = 1323 人
2標本比較
モデル
y    sign (r )    e1
r  e2
r 0
z 1
y1 ,...,yn1
yn1 1 ,...,yN
1
ˆ
  ( y1  y 2 )
2
r0
z 1
z2
(r  0)
z  2 (r  0)
(ˆ )     
2 
2

2

ˆ
1 
   ( N 2 )
var ( ) 
N 
 
2

対数尤度は
( yi     ) 2 n
yi    

 N log   
  log (
)
2
2
2

i 1
i 1
1 
n
N
( yi     ) 2
yi    


  log (
)
2
2

i  n 1
i  n 1
1  2
N
2
ˆ
ˆ
 ()   


1-  2
ˆ   (  3 )
感度解析の例
(UK National Hearing Survey)
職場で騒音を被ることが聴力に障害を引き起こす
かどうかを調べる
全対象者数 N  211 (男性)
処理群(高レベルの騒音に曝露) n1  67
対照群(年齢、職場は同じ) n2  144
各群において、 3kHz までの周波数の純音で聴き
取れるところまでの音量を測定
(そして、適当な正規化変換をする)
処理群での標本平均
対照群での標本平均
合併標本標準偏差
y1  3.893
y2  3.710
s  0.351
t-統計量 t  3.52
(自由度
) 209
しかし、2つの群はランダム化されていない
~
3
t ( )  3.52 5.39   (  )
~
t ( )  z0.05  1.96 if   0.29
結論は容易に決められなくなる。
Copas-Eguchiモデル
割りつけがランダムに行われていないときの
状況をモデル化
観測の状態
Z
結果変量
Y
Y | z ~ f Y  y, z  ?
f Z z , 
ランダム効果
T
fT t 
対象者の割りつけ方が無視できる(ランダムに行
われている)
T
Z
or fTZ (t, z)  fT (t ) f Z ( z, )
無視できないときのモデル
 

gTZ t , z   fT t  f Z z, exp  i ui t vz,    
 i 1


  0 ,


i   1
2
i
 z を z 番目の群における処理の効果(treatment
effect)を表すパラメータとして
fY |T ,Z  y | t, z   fY |T  y | t   z  と仮定すると
gY |Z  y | z   ET |Z fY |T  y | t   z 
但し



 fY  y |  z 1    i ui  y, z vz, 1
i


fY  y,  :  fY |T  y | t    fT t  dt
ui  y,  :  ui t  fY |T  y | t    fT t  dt fY  y, 
  0 (ランダム化デザイン)
fY |Z  y | z ・・・これが
 fY  y, z 
f Y  y , z 
の意味
以後、
は既知のパラメトリックな分布族と
, 
し、  fY  yは(統計的推測には)用いない
fT , fY |T
(割りつけが無視できないときのモデルを導出する
ために用いた)
以後、簡単のため
はスカラーとする
t ,
選択バイアスの局所近似
各群への割りつけが無視できないときに、それを
無視して得られる最尤推定量と、 Y , Z の実際の
同時分布が f YZ のチューブ近傍に属するとして得
られる最尤推定量の差をみる
Y , Z の実際の同時分布



gYZ  y, z   fY  y, z  f Z z, 1    i ui  y, z vz, 
i


~
 z の最尤推定量  z
  0 としたときの  z の最尤推定量を ˆz とすると
~
 z  ˆz   Iˆ 1 z
z
但し
I は  に関するFisher情報量
 :    ˆ vz, 
z
i
i
 
z
i
 i   :  ui   y,  fY  y,  dy
f Z z,   nz N
(N :全標本数、n z :群 zでの観測標本数)
f Z z,  は飽和モデルとして
2 個の群にわたる標準化2乗バイアスの和
2

~
ˆ



 z z
z 1

2
 
VarA ˆz  n1n2 N  2
但し
 2 : EVar logg Z |T z1 | t  g Z |T z2 | t  | z1  z2 
  2 N 2 n1n2
 は t と z の従属性の(ある種の)大きさを量る
ことにより、各群への割りつけがどのくらい選択
的かを表す
反事実結果変数によるモデル化
Y r  : r 番目の群に割りつけられたとしたときの
結果変数 ~ fY  y,r  r  1,2
( Y 1 ,Y 2 はどれか1つしか観測されない)
Z : 観測の状態(どの群に割りつけられるかを表す)
Z  r のとき、 Y  Y r  ( Y は結果変数)
対象者の割りつけ方が無視できる
Y   ,Y    Z
 f  y, z   f  y,  f z,  , r  1,2
1
Y  r Z
2
Y
r
Z
無視できないときのモデル
 

gY  r Z  y, z   fY  y, r  f Z z, exp r  irui  y, r v z,    
 i 1












 fY y, r f Z z, 1   r  irui y, r v z, 
i 1


gY |Z  y | z   gY  z |Z  y | z  より



gY |Z  y | z   fY  y, z 1   z  izui  y, z vz, 2
i 1


※  z , iz が
z
に依存していることに注意
選択バイアスの局所近似
~
1
ˆ
 z   z   z I z  z
2個の群にわたる標準化2乗バイアスの和
2

~
ˆ



 z z
z 1

2
  

VarA ˆz  n1n2 N 2 n212  n122

2標本問題
  1  1 1   

   
  ,    
 2  1  1  
 
 に関する標準化2乗バイアス
モデル(1)では


 

T
~ ˆ
-1 ˆ
ˆ
   Var A      n1n2 N  2
~
モデル(2)では

~

 
 

T
~ ˆ
-1 ˆ
ˆ
   Var A      n1n2 N 2 n212  n122

仮説検定への応用
仮説 H0 :   0
検定統計量

  
  
12
ˆ
ˆ
ˆ
(   0 と仮定して)
t    Var 
12
~ ~
(実際には)
t    Var ˆ

モデル(1)では
~
12
ˆ
t   t   n1n2 N    bias
 
モデル(2)では
~
t   t ˆ  n1n2 N
  

n212  n122 ( bias)

| t ˆ |  z で統計的に有意のとき
(但し、 z は標準正規分布の両側  % 点)
 を bias  | t ˆ |  z となるような  とすると


 が小
選択バイアスがわずかであっても
~
( t  の方では)有意でなくなる

可能性あり
 が大
実質的な大きさの選択バイアス
がないと結論は覆らない
感度解析の例
(UK National Hearing Survey)
職場で騒音を被ることが聴力に障害を引き起こす
かどうかを調べる
全対象者数 N  211 (男性)
処理群(高レベルの騒音に曝露) n1  67
対照群(年齢、職場は同じ) n2  144
各群において、 3kHz までの周波数の純音で聴き
取れるところまでの音量を測定
(そして、適当な正規化変換をする)
処理群での標本平均 y1  3.893
対照群での標本平均 y2  3.710
s  0.351
合併標本標準偏差
高度に有意
t  統計量 t  3.52
(自由度 209 )
しかし、2つの群はランダム化されていない
z5  1.96 (両側 5 % 点)に対し、モデル(1)では
t  z5  n1n2 N5
5  0.23  0.30
検出できないくらいわずかな  で結論が逆転する
可能性があるので注意が必要
 が各群で異なることを許容するモデル(2)では
t  z5 


n1 n2 N 1 5
1 5  0.28
 0.64
但し,2  0 (つまり対照群の方では割りつけは
ランダム)と考える
 or   の値の小ささの目安
モデル(1)の場合
仮に完全データ tk , zk k  1,, N  が得られたと
して、   0 の検定を行ってみる
T , Z の同時分布
 

gTZ t , z   fT t  f Z z, exp  i ui t vz,    
 i 1

標準化スコア検定統計量
1
N 

N  i ui tk vzk , 
 k 1 i 1

(局所漸近的)検出力が1/2となるような  は
 2
N
このとき
  2 N n1n2 (  0.30 前出の例の場合)
これより小さい or   は実際にも無視され
やすいと考える
モデル(2)の場合は、仮に完全データ ykr  , zk 
r  0
kが得られたとして、
 1,, N ; r  1,2
の検定を考える
補足
Copas-LiモデルとCopas-Eguchiモデルの関係
(2群比較の場合)
Copas-Liモデル


gY |Z  y | z   1    y     z    1  2    y     z    z
(但し z  sign r ,  は標準正規分布の密度関数)
Copas-Eguchiモデル(モデル(1))



gY |Z  y | z   fY  y, z 1    i1ui  y, z vz, 
i 1


Copas-LiモデルはCopas-Eguchiモデルの特別な
場合に相当する:
fY  y, z   1    y     z     z     z 
  2   , 11  1 ,  i1  0 i  2
u1  y, z   y     z   , vz,   z
  Prz  1  1 2
(但し、Copas-Liモデルでは   Prz  1 は特定
されているのに対し、Copas-Eguchiモデルでは
サンプルから推定する)
Copas-Liモデル
対象者の割りつけ方が無視できないときのモデル
として、  だけで決まる
バイアスも  or  だけで決まる
~
前出の例の場合 t  t ˆ  5.39 3
 
Coaps-Eguchiモデル

だけでは決まらず、割りつけ方が無視できない
状況を表すモデルとして、よりバラエティーがある
バイアスは  or  で決まる量によって
不等式で評価される
~
前出の例の場合 t   t ˆ  6.76 4
 
Copas-LiモデルはCopas-Eguchiモデルによる
バイアス評価式(4)で等号が成立する場合になっ
ている
(但し、Copas-Eguchiモデルでは   Prz  1 を
n1 N として推定するので、2群の標本数が等し
いときに等号成立)
参考文献
Copas,J.B. and Li,H.G.(1997)
Inference for non-random samples(with discussion).
J.R.Statist.Soc.B,59,55-95
Copas,J. and S.Eguchi(2001)
Local sensitivity approximations for selectivity bias.
J.R.Statist.Soc.B,63,871-895
ダウンロード

ppt - 統計数理研究所