統計学第6回
看護学部 中澤 港
<[email protected]>
http://phi.ypu.jp/stat.html
カテゴリ変数2つの分析
• 2つの変数の母比率の比較
• 2つの変数の関係の分析
– 独立かどうか?
– 関連の程度はどうか?(※次回説明する)
2つの変数の母比率の比較
• 例:山口県立大のキャンパスを隔てるバイパスの交通状態の観
察データ(2分あまり)
• 進行方向,型,色を変数とする。
• 進行方向で2群に分けると,津和野方面と山口市街地方面で
別々に型と色という変数ができる。津和野方面の型という変数
での乗用車の割合と,山口市街地方面の型という変数での乗
用車の割合を比較する。
津和野方面行きと市街地方面行き
とで,乗用車割合は違うか?
• 津和野方面は,乗用車57台,それ以外3台,
市街地方面は,乗用車25台,それ以外4台
• 津和野方面行きの乗用車割合の母比率p1
の推定値は,57/60(標本比率を使う)
• 市街地方面行きの乗用車割合の母比率p2
の推定値は,25/29(標本比率を使う)
• p1とp2に差が無いという帰無仮説の下でZ
(配布資料参照)を出してN(0,1)で検定する。
連続性の補正(連続修正)
• 正規分布は連続分布なのに,カテゴリ変数
の各カテゴリに該当する標本数の値は離散
量なので,Zがとりうる値は飛び飛びになっ
てしまい,そのままでは分布への当てはま
りがやや良くない。
• そこで,平均から(1/n1+1/n2)/2を足したり
引いたりするのが連続性の補正である。
• 式が若干異なるけれども,後で説明するカ
イ二乗検定での連続性の補正も同じ考え方
に基づく。
母比率の差の信頼区間
• 母比率の差の95%信頼区間を求めるには,
標本数が多ければ,差から分散の平方根
の1.96(=標準正規分布の97.5%点)倍を足し
たり引いたりしてやればよい。
• 通常は連続性の修正が必要なので,さらに
下限から標本数の逆数の平均
(=(1/n1+1/n2)/2)を引き,上限には同じ値
を足す。
2つのカテゴリ変数の関係
• 研究のデザインによってさまざまな分析
– 患者対照研究(Case Control Study)は基本的に一時点で患
者群と対照群のデータを比較し,差があるかどうか検討する。
肺がんについて,過去における喫煙率を患者群と対照群で
比較するとたいていの場合有意な差が出る,ということから,
肺がんのリスクファクターとしての喫煙を示したことは,患者
対照研究の成果である。
– 実は,過去における喫煙率を患者群と対照群で比較する,と
いうことは,過去における喫煙という変数と患者かどうかとい
う変数が独立かどうかを調べることに他ならない。
– 独立でないならば,どの程度関連があるのかを調べることに
なる。喫煙がどの程度肺がん発症率を上げるのかを調べる
には,前向き研究でリスク比やオッズ比を求める。オッズ比は
患者対照研究でも計算できるが,リスク比は前向き研究でな
いと求められない。
2つのカテゴリ変数の独立性
• まず,組み合わせの度数を調べた表を作成
する。これをクロス集計表と呼ぶ。
• 2つの変数が,ともにカテゴリ数2個ずつ(つ
まり2値変数)のときのクロス集計表は,とく
に2×2分割表とか,2×2クロス集計表と
呼ばれ,統計的性質が良く調べられている。
• クロス集計表をもとにして独立性を調べるに
は,独立である場合に期待される各セルの
度数と,実際の度数が適合しているかどう
かをカイ二乗検定で調べるのが1つの方法。
独立性の検定の公式
• 配布資料4ページにあるように,イェーツ(Yates)の
連続性の補正を行ったカイ二乗値を計算し,それ
が自由度1のカイ二乗分布に従うと考えて計算す
る。
• 標本数が少ない場合は第1種の過誤が大きくなる
ので,フィッシャーの正確な確率検定(Fisher’s
Exact Probability Test)をする。周辺度数が決まっ
ている場合にありうるすべての組み合わせを考え,
実際に得られている表が偶然の可能性の中で得
られる確率がどれくらいあるかを求めるのだが,
手計算では大変なので,普通はパッケージに計算
させる。
ダウンロード

統計学第6回