データ分析入門(9)
第9章 データの品質
廣野 元久
1
本章の概要

測定の誤差が生じる要因
誤差は分析結果を歪める
 他人の収集データの誤差つき方の認識


誤差の回避方法
調査計画と誤差の回避法
 実験計画と誤差の回避法

第9章 データの品質
廣野元久 &高橋行雄
2/31

1.誤差の種類とデータの品質(1)

1.1 データのばらつき


データは誤差(Error)を持つ:小泉政権の支持率
1.2 誤差の種類:かたよりとばらつき


観測値=真値+誤差(真値は不明が多い)
誤差には



系統誤差:偏り(Bias)
偶然誤差:残差
=平均値-真値
=観測値-平均値
データの構造
観測値=真値+偏り+残差
=真値+(平均値-真値)+(観測値-平均値)
正確さ
精密さ
第9章 データの品質
廣野元久 &高橋行雄
3/31
1.誤差の種類とデータの品質(2)
正確な データ
正確でな いデータ
平均値
平均値
測定の散らばり
測定の散らばり
偏り
真の値
真の値(偏りが0)
測定器:標準器に対して,通常使う測定器固有の偏り
があるとき正確でないデータとなる
第9章 データの品質
廣野元久 &高橋行雄
4/31
1.誤差の種類とデータの品質(3)
精密でな いデータ
精密な データ
平均値
平均値
測定の散らばり
観測値A
真の値
測定の散らばり
観測値A の残差
標準偏差が小さい
標準偏差が大きい
第9章 データの品質
廣野元久 &高橋行雄
5/31
2.データの収集方法が品質に与える影響


データ収集者
データをどのように収集したのかを記録した、
データヒストリーを記録する
分析者
データヒストリーを吟味してから分析に入る
どっちの料理でしょうでは、
特選素材を提供する仕事人のヒストリー
特選素材を使ったシェフの料理の進行
を楽しむことができる
第9章 データの品質
廣野元久 &高橋行雄
6/31
2.1 統計データの品質

第一義統計:素材が新鮮



第二義統計:加工食材



全数調査:原則的に誤差はない(除く、回答もれなど)
標本調査:標本抽出による誤差が生じる
すでにある誤差を取り除くことは困難
データの信憑性の限界を考えておく
国の安定度、裕福さによってもデータの信憑性は
異なる

昔の共産圏の国々のデータは、その政策上、あやし
げだった
第9章 データの品質
廣野元久 &高橋行雄
7/31
2.2実験・調査データの品質

データの正確さ
抽出された集団の代表性
 設問配置、方法、調査の言葉使い
 被験者、評価者の思い込み、バイアス


データの精密さ
標本の大きさ
 実験環境の設定
 測定技術
 質問文の曖昧さ

第9章 データの品質
廣野元久 &高橋行雄
8/31
3.データの品質を保つ収集の技術

3.1 調査対象の抽出
 多くの場合、全数調査は困難
 経済的、時間的、効率的、実際的に難しい
 工業製品は、一部抜き取り検査で品質を保証
 信頼性の高い製品では、無検査で市場に出る

対象全体(母集団)から標本をランダム抽出する
標本調査が現実的
 対象全体が反映されるような標本を抽出する(代表
性)
 対象中の要素が偏りなく、平等に選ばれる
統計の神様は冷淡
第9章 データの品質
廣野元久 &高橋行雄
9/31
3.1 調査対象の抽出
標本抽出
母
集
団
臨床試験では
ランダム割付
標本
計測
データ
統計処理
アクション
情報
評論
考察
研究対象
母集団はどんな性質をもっているか
母集団の状態はどうなっているか
第9章 データの品質
廣野元久 &高橋行雄
10/31
3.1.1抽出された集団の代表性

社会調査における集団の代表性

無作為抽出、ランダム抽出




選ばれ方が平等
他の要素に無関係に選ばれる
統計の神様は冷淡
ランダム抽出と場当たり抽出とは違う
実験における集団の代表性

仮説検証(自分のアイデアを証明する)素材


一般性が成り立つ限界の把握
再現性があるかどうかのチェック
何を研究対象:母集団としているのか?
明確に定義しておく
第9章 データの品質
廣野元久 &高橋行雄
11/31
3.1.2 標本の大きさ(1)
•標本の大きさ(サンプルサイズ)を増やせば、精密
•大数の法則
•調査では、標本の大きさが30以上の大標本を使う
•標本から求めた平均値や比率などの特性値は、標本数n
により精度が増す
1/√n
n=1に対する
標準誤差の比
確率
標本数による標準誤差の精度
中心極限定理による標準誤差の変化のようす
0.2
1
標準誤差の比
0.9
0.18
0.8
0.16
0.7
0.14
n=1
n=2
n=4
n=10
n=50
n=100
0.12
0.1
0.6
0.5
0.08
0.4
0.06
0.3
0.04
0.2
0.02
0.1
0
0
-3
0
50
100
150
200
-2
250標本数
第9章 データの品質
廣野元久 &高橋行雄
-1
0
1
標準化距離;u=(χ-μ)/σ
2
3
12/31
3.1.2 標本の大きさ(2)
標本の大きさを考える:95%信頼区間
 比率p=r/nの母集団の分布はnが大きい
ときには正規分布に近似できる

平均値 p
測定の散らばり
0.025
0.025
この幅をある値にするために標本数を決める
第9章 データの品質
廣野元久 &高橋行雄
13/31
3.1.2 標本の大きさ(3)
PL  pˆ  1.96 
1  pˆ   pˆ  pˆ  pˆ  1.96  1  pˆ   pˆ  p
n
n
U
1
1
pˆ  0.5  pˆ  1.96  0.5 
 pˆ  pˆ  1.96  0.5 
n
n
0.98
0.1 
 n  96
n
0.98
0.98
0.98
pˆ 
 pˆ  pˆ 
 0.05 
 n  384
n
n
n
0.98
0.03 
 n  1067
n
第9章 データの品質
廣野元久 &高橋行雄
14/31
予防率の信頼区間
タミフル群
 プラセボ群
2人 / 155人 1.3%
13人 / 153人 8.5%

二項分布
二項分布
0.30
0.15
0.25
0.20
0.10
0.15
0.10
0.05
0.05
第9章 データの品質
廣野元久 &高橋行雄
30
28
26
24
22
20
18
16
14
12
8
10
6
4
2
0
30
28
26
24
22
20
18
16
14
12
8
10
6
4
2
0.00
0
0.00
15/31
Excelの計算シート
第9章 データの品質
廣野元久 &高橋行雄
16/31
95%の正確な信頼区間

タミフル群
2人 / 155人 1.3%
95%下限 = 0.002 = 0.2%
 95%上限 = 0.040 = 4.0%


プラセボ群
13人 / 153人 8.5%
95%下限 = 0.051 = 5.1%
 95%上限 = 0.140 = 14.0%

第9章 データの品質
廣野元久 &高橋行雄
17/31
3.1.3 調査票の配布と回収

調査票は100%回収されない


企業のCS(顧客満足度)調査が50%強で上出来
設問が多ければ回答しない



謝礼やお礼の粗品を工夫する





分からないから何でも聞くという態度は賢明ではない
みんな忙しいので,回答のお願いをはがき等で出す
粗品と一緒に調査票を配る
お願いの手紙を添える
分析結果を何がしかの方法で公開する旨を示す
責任者の連絡先を明記する
調査票の配布,電話,直接面談

服装,言葉使いには十分気をつける
第9章 データの品質
廣野元久 &高橋行雄
18/31
3.2実験環境の設定

3.2.1 実験計画


料理も段取りが大切!!,段取りが悪いとパニックになる
実験を行う場合には,何がしかの仮説があるので段取
りをきちんと行う


科学的段取り方法として,実験計画法がある
実験計画法

局所管理(実験条件の管理)


ランダマイズ


仮説を確認する要因以外の条件は,できるだけ同じにする
実験の順番は,偶然誤差だけが抽出されるように無作為に行
う
水準設定の繰り返し,あるいは反復
第9章 データの品質
廣野元久 &高橋行雄
19/31
3.2.1 実験計画

新薬の実験計画





新薬を投与する群
:実験群
にせ薬(プラセボ)を投与する群:統制群,対照群
薬の効果,安全性を調べる
実験群は複数用意することもある
ある英国貴婦人はミルクティを作るのに





1)はじめにミルクを入れる
2)次いで熱い紅茶を入れる
1),2)の順序が逆だとうっまずい(邪道という!!)
本当に1),2)の順番と2),1)の順番で差が分かるのか?
実験を計画してみよう
第9章 データの品質
廣野元久 &高橋行雄
20/31
3.2.2 精密な測定


計測器の出力の桁数が多いと精密と思いがちだ
が,きちんと測られている保証はない.
高い測定機器が精度が良いわけではない



昔,波形を測定する(回路のノイズ)のに2つの測定器の
精度を比較したら,表示桁数の少ない旧式の方が精度
が良かった.
実験装置や測り方や測る人を工夫する
測定機器の精度の限界を理解しておく
第9章 データの品質
廣野元久 &高橋行雄
21/31
3.2.3 客観的な測定

評価に恣意が入らないように注意する

ある会社で,自社とライバル会社のコピー機の画質の
比較をした.



パイロットのヒューマンエラーを調べたら




設計者は自社を甘く,ライバル会社を厳しく評価しがちであった
検査者は自社を厳しく,ライバル会社を甘く評価しがちであった
パイロットのミスはほとんどゼロになった.
実際は80%はヒューマンエラーだった
パイロットは査定されると思い,無意識に自己防衛した
新薬では,二重盲検(マスキング法)を行う

患者も,薬を投与する先生も,どちらが新薬でどちらがプラセボ
か分からないように実験する
第9章 データの品質
廣野元久 &高橋行雄
22/31
3.3 設問の配置や方法

人は,ちょっとしたことに反応(気分を害する)する

相手に失礼や誤解がないような設問,質問の仕方をする

学歴,年齢などプライバシーに関る質問には十分な配慮


調査票の最後に配置し,もしよろしければ・・…を加える
回答に偏りや不必要なばらつきが生じないようにする



設問,質問は,単文で,分かりやすい言葉を使う
設問,質問には,主語である,あなたは…・とする
若者言葉や口語調の言いまわしはしない
第9章 データの品質
廣野元久 &高橋行雄
23/31
3.3.1 設問の配置

社会調査


文脈効果,接近誤差(誘導尋問)に注意する
質問の前後の関連性が強くなることがある


実験


コピー機の故障の頻度とサービス窓口の対応を聞いたのに関連
が強くなって解釈に困った
同じ内容でも言いまわし(肯定的,否定的)で回答が異なる
製品の満足度調査と不満足調査では結果が異なる
第9章 データの品質
廣野元久 &高橋行雄
24/31
3.3.2 設問方法,実験方法や言葉使い(1)

1)設問や教示の正確性


時事用語,流行語,学術・専門語などの使用は十分注意
安易に英単語のカタカナ書きはしない


ミッション,ファンクション,ベネフィット などなど
年代によって,言葉から受けるイメージが違う

メロディの官能実験で



質問の正確性


単文で,具体的記述であることが肝心 :複数の意味にとれるものは×
社会調査



40代,50代:たそがれた と うらぶれた
が関連が強かった
20代
:たそがれた と ロマンチックな が関連が強かった
安易に「その他」は使わない
必要な選択肢を用意しておく
実験

教示文(実験の前の説明,手順の紹介)は容易,簡潔,適切
第9章 データの品質
廣野元久 &高橋行雄
25/31
3.3.2 設問方法,実験方法や言葉使い(2)

2)反応,回答の偏りの防止

黙従傾向

選挙の候補者の名前の順序や街角ポスターの順番はランダム
好き嫌いなどは,段階評点がよい,SD法など
社会調査



個人の倫理観,見栄,外聞に関する設問はバイアスがかかる


選挙にいきますか:選挙に行くと答える方が実際の思いより多くなる
実験

刺激(対象物)の順番は重要
 ビールやお茶を官能評価するのに,最初に飲んだものが基準となる
 テストの点をつけるのに,始めは厳しくつけるが,だんだん甘くなる
もう1度,点数の順番に並べ替えて,調整する
第9章 データの品質
廣野元久 &高橋行雄
26/31
3.3.2 設問方法,実験方法や言葉使い(3)

3)回答者の人格尊重

対象者の人格を考えて設問を作る
 どんなに配慮しても,お叱りは受けることを覚悟する
 協力して頂いているという謙虚な気持ちが大切
 学生であるという甘えは禁物

余談:昔,奥さんとデート中にアンケートの協力をした
アンケートはタバコのコマーシャルフィルムの評価
タバコを吸わないので,どのフィルムも低い評価をつけた
理解に苦しんだ
タバコを吸う人にPRするものか
タバコを吸わない人の嫌悪感を調べるものか
第9章 データの品質
廣野元久 &高橋行雄
27/31
アンケートの設問と選択肢の作成

ある大学の就職課では就職活動における性差
の問題に関する調査を行うことになった.
以下の方法で調査をしたが,問題点はあるか
 方法
ある日の午後,食堂に行き,30人にアン
ケート用紙を配り,その結果を基にして,
その大学の就職活動を行っている学
生の意見とした
第9章 データの品質
廣野元久 &高橋行雄
28/31
調査項目の作成(1)
携帯電話の購入理由を調査したい
 どのような質問文と選択肢を作ればよいか
 得られたデータの尺度は何か

第9章 データの品質
廣野元久 &高橋行雄
29/31
調査項目の作成(2)
 トヨタとホンダのブランドが若者に与え
る印象を調査したい.どのような調査
票を作成すべきか
第9章 データの品質
廣野元久 &高橋行雄
30/31
調査項目の作成(3)
 携帯電話の当たり前(そのような
機能があって当然と思う)品質と
魅力品質(革新的な機能)につい
て年代別に調査したい.どのような
調査票を作るとよいか
第9章 データの品質
廣野元久 &高橋行雄
31/31
ダウンロード

クリック