Ⅰ
全数調査と標本調査
1) 標本調査のメリット
2) 標本抽出法
3) 標本調査における誤差
Ⅱ
確率の基礎
1) 確率の計算
2) 確率分布
3) 確率の定義
ⅰ)
ⅱ)
ⅲ)
先験的確率
経験的確率
主観的確率
Ⅲ 統計的推論入門


†
「社会生活統計指標 -都道府県の指標-2011」のページ
には、数多くの都道府県別データがある。
基礎データのところを見ると、中には、人口総数
(A1101)のように、調査によってすべて数え上げたもの
がある。一方で、消費支出(勤労者世帯)(L3211)†のよう
に、県内の一部の世帯について調査をおこなって求めた
推計値もある。
消費支出は県内のすべての世帯について調査し、その平均をとったもので
はない。一部の世帯の調査結果から推計したものである。
1) 標本調査のメリット
母集団(個体数N)
標本(個体数n)
×
×
×
×
×

×
×
×
×
×
ある集団についての調査をおこなうとき、調査対象とな
る集団(母集団)からその一部を標本として選び、調査
する方法がある。これを標本調査という。

標本調査の例として次のようなものが挙げら
れる。
 労働力調査(完全失業率はこの調査の結果求めら
れる)
⇒ 全国の15歳以上(約1億1千万人)の母集団から、
約10万人を標本として選ぶ調査
 内閣支持率調査などの世論調査
⇒ 全国の有権者(20歳以上の日本国民)(約1億人)
の母集団から、約1000人(新聞社のおこなう内閣
支持率調査の場合)
その他、視聴率調査、街頭でのアンケート、製品の
品質管理のための抜き取り調査など、数多くの標本
調査がおこなわれている。
標本調査をおこなうメリットとして、次のようなことが挙げら
れる。

費用・時間の削減
→ 調査票を配布回収する調査では、調査票の印刷費、集計
にかかる機械処理費用、人件費などと全部を集計しおえる
までの時間がだいぶ削減できる。

得られる情報の増加、精度の向上
→ 調査には調査員が使われることが多いが、ベテランの調
査員は調査の内容をきちんと説明できるので、答えづらい
内容を聞いたり、正しい結果を導いたりすることができる。

全数調査が不可能な場合にも調査可能
→ ガラスの耐久性についての品質管理を調査するなどの場
合、全数調査をおこなうことは不可能である。
2) 標本抽出法
母集団から標本を抜き出す方法を標本抽出法という。英語で
はサンプリング(sampling) であり、マーケティングなどに出て
くるこの言葉は、標本抽出法を指している。
標本抽出法は、次の2つに大別できる。

有意抽出法
選ばれた標本が母集団の縮図となるように、調査をおこなう
人が主観的に選ぶ方法である。街を歩く人(ただし典型的と思
われる人)にアンケートをとるなどの方法であり、抜き出され
た標本の誤差(後述)には、統計理論でコントロールすること
ができないほどの偏りが生じることがある。

無作為抽出法
母集団の中から無作為(ランダム)に標本を抜き出す方法。
具体的に次のような方法がある。
単純無作為抽出法 - 母集団の中からくじ引きの原理によっ
て標本を抜き出す。
系統抽出法 - 始めに1つ選び、そこから等間隔で選んでいく。
電話帳などのリストに有効
3) 標本調査における誤差
標本調査の結果と、真の状態との間にはズレがある。
このズレのことを誤差というが、標本調査における
誤差には次の2つの種類のものが組み合わさったも
のである。
1. 非標本誤差 - 調査もれ、無回答、記入ミスなど
⇒ 全数調査でも起こりうる
統計理論によりコントロール不可能
2. 標本誤差 - 標本の偏りによるもの
⇒ 標本調査に固有のもの
無作為抽出であれば、統計理論によりコントロール可
能であるが、有意抽出の場合には、統計理論でコントロー
ルできない標本の偏りが存在する可能性がある。

無作為抽出で得られた標本の偏りによる誤差がどの
程度の範囲に収まるかを、統計理論によって知るこ
とができる。⇒確率の問題
※ 統計理論でコントロールできない標本の偏りの例

1936年のアメリカ大統領選挙
<候補者>
› F・ルーズベルト(民主党)現職
› A・ランドン(共和党)

どちらの候補を支持するかの世論調査
リテラリー・ダイジェスト(週刊誌)
 過去5回の大統領選挙の予測を的中
 200万人以上の回答から、ランドン候補が57%の得票率で勝利
と予想
アメリカ世論研究所(ジョージ・ギャラップ率いる研究所)
 世論調査を始めたばかり
 3000人の回答から、ルーズベルト候補が54%の得票率で勝利と
予想
結果は、ルーズベルト候補が60%の得票を得て勝利

なぜ、回答数の多いリテラリー・ダイジェストが外れ、回答数
の少ない、ギャラップの方が的中したか?
⇒ 標本抽出の方法の差
リテラリー・ダイジェスト
 自誌の購読者(大恐慌の最中になお雑誌購読を続けられる裕福
な人たち)を対象に、それから自動車保有者と電話利用者の名
簿を使って1000万人もの対象者に郵便を送り、返送された200
万以上の回答をただ積み上げた。
ジョージ・ギャラップ率いる研究所
 「収入中間層・都市居住者・女性」「収入下位層・農村部居住
者・男性」のように互いに重ならないグループに分け、それぞ
れのグループに対して決まった割合で対象を抽出した。
リテラリー・ダイジェスト
ギャラップの研究所
母集団(個体数N)
×
×
×
標本(個体数n)
×
×
×
母集団(個体数N)
×
×
×
×
×
×
×
標本(個体数n)
×
×
×
×
×
×
×
×
※ 無作為抽出の例
袋の中に、赤球5個、白球5個の計10個の球が入っている。この袋から2
個球を取り出すとき、袋の中の割合と同じように、赤球と白球が1個ずつ
となる確率を考えてみよう。
母集団
標本
赤球2個
2
9
赤球1個、白球1個
白球2個
2
9
5
9
これは、10人の母集団か
ら2人を標本として選ぶこ
とと同じである。ここで、赤
球を「内閣支持」白球を
「内閣不支持」と考えると、
母集団の内閣支持率は
50%であるが、標本につ
いて計算した内閣支持率
は、100%や0%になるこ
ともありうる。
<野田内閣発足直後の支持率の例>
母集団(有権者1億人)
×
×
×
×
標本1(朝日1051人)
53%
×
×
×
×
×
×
×
×
2011年9月4日付の朝刊各
紙に掲載された野田内閣支
持率を見ると、異なった結果
になっている。
同じ対象に同じ調査をおこ
なっても、標本によってその結
果が異なる。
これが、標本の偏りである。
×
×
×
×
×
×
標本2(読売1100人)
65%
標本3(毎日1001人)
56%
標本4(日経954人)
67%
標本5(共同1014人)
62%
1) 確率の計算
(問題) 袋の中に、赤球5個、白球5個の計10個の球が入っている。
この袋から2個球を取り出すとき、袋の中の割合と同じように、赤
球と白球が1個ずつとなる確率を考えてみよう。
(解答) 求める確率は次のようになる。

  =

Aという事象のおこる確率(Probability)
をこのようにあらわす。
この場合は、「取り出した球が、赤球と
白球が1個ずつとなる」が事象Aである。
取り出した2個の球が、赤球と白球1個ず
つとなる場合の数。すなわち事象Aに該当
するものが何通りあるかをこのようにあら
わす。
10個の球から2個の球を選ぶ場合の数。
すなわち全部で何通りあるかをこのよう
にあらわす。

まず、10個の球から2個の球を選ぶ選び方が何通りある
かを考える。
①②③④⑤①②③④⑤
› 最初に選ぶ球は、この10個のうちの1つであるので、10通りと
なる。
› たとえば最初に①を選んだとしよう。このとき、次に選ぶ球は、
②③④⑤①②③④⑤の9個の中の1つであるので、9通りとなる。
› 選び方は10(通り)×9(通り)=90通りとなるが、この90通りの中
には①③と選んだ場合と、③①と選んだ場合の両方が含まれる
など、全部の組み合わせについて、ダブりが1つずつある。
› よって求める場合の数は90÷2=45(通り)である。

すなわち10個の中から2個を選ぶ組み合わせは
10個の球から2個の球を選ぶとき、順番
も考えて何通りあるか。
①③ と③① のように、同じ組み合わせ
で何通りの順番ができるか。
10 × 9 90
=
= 45(通り)
2×1
2
x個
 ×  − 1 × ⋯×  −  + 1
 ×  − 1 × ⋯× 2 × 1
x個
 =
 =
!
!  −  !
 ×  − 1 × ⋯×  −  + 1 ×  −  × ⋯× 2 × 1
 ×  − 1 × ⋯× 2 × 1 ×  −  × ⋯× 2 × 1
x個
=
 ×  − 1 × ⋯×  −  + 1
 ×  − 1 × ⋯× 2 × 1
x個
x個
 ×  − 1 × ⋯×  −  + 1
!
 =
− !

=

!

次に、取り出した2個の球が、赤球と白球1つずつとな
る組み合わせが何通りあるかを考える。
①②③④⑤①②③④⑤
› 最初に赤球を選び、次に白球を選ぶ†ことにする。
› 赤球は①②③④⑤のいずれかから選ぶので、5通りとなる。
› 白球も同様に①②③④⑤のいずれかから選ぶので、5通りとな
る。
› よって選び方は5(通り)×5(通り)=25通り‡となる。

よって求める確率は
  =
 25 5
=
=
 45 9
である。
† 順番は関係ないので、このように決めても構わない。順番を考慮するなら、最初に
赤球の場合と最初に白球の場合の両方を考えなくてはならない。
‡ 他の場合として、取り出した2個の球がともに赤球の場合と、ともに白球の場合があ
る。その組み合わせの数はともに  =
10×2=25(通り)と求めることもできる。
5×4
2×1
= 10(通り)となるので、45-
※ 条件付き確率
(例) 袋の中に、赤球5個、白球5個の計10個の球が入っている。この袋か
ら2個球を取り出すとき、2個とも赤球である確率を考えてみよう。
5個の赤球から2個の球
を選ぶ場合の数
5×4
10 2
2
×
1
=
=
=
10
×
9
45
9

10 2
2×1
52
赤球2個
10個の球から2個の球
を選ぶ場合の数
•
赤球2個
この確率は、次のような計算で求める
こともできる。
5 4 2
× =
10 9 9
1個目の球が赤球
である確率
•
•
袋から同時に2個球を取り出すことは、球
を戻さずに続けて2個球を取り出すことと同
じである。そのとき、
1個目の球が赤球であったという
条件のもとで、2個目の球も赤で
あるという条件付き確率
事象Aがおこることを条件として、事象Bがおこることを、(Aを条件とす
る)Bの条件つき確率といい、 | であらわす。
この場合、
事象A・・・1個目の球が赤球である。
事象B・・・2個目の球が赤球である。
とすると、   ∩  =   ×  | =
AとBが同時に起こる確率であり、
AとBの同時確率といわれる。
1個目も2個目も赤球である確率。
1個目の球が赤球
である確率
5
10
4
9
× =
2
9
となる。
1個目の球が赤球であったという
条件のもとで、2個目の球も赤で
あるという条件付き確率
次に、下のような例を考えてみる。
(例) コインを2枚投げて、2枚とも表になる確率を考えてみよう。
•
この場合、
事象A・・・1枚目のコインが表になる。
事象B・・・2 枚目のコインが表になる。
1
2
1
2
とすると、  ∩  =   ×   = × =
1枚目も2枚目も表になる確率
1枚目のコインが
表になる確率
1
4
となる。
2枚目のコインが表になる確率
袋から2個同時に球を取り出す場合、  ∩  =   ×  | であっ
た。
• コインの例では | ではなく、  となっているが、良いのであろう
か?
⇒ この場合、1枚目のコインが表になろうが、裏になろうが、2枚目のコイ
ンが表になる確率に影響を与えない。
• すなわち、この例の場合  | =   である。
• このとき、「事象Aと事象Bは独立である。」という。
•
2) 確率分布

2
3
4
5
6
7
8
9
10
11
12
()
1
36
2
36
3
36
4
36
5
36
6
36
5
36
4
36
3
36
2
36
1
36

確率分布は、いくつかの種類に分類することができる。
› 離散型確率分布
2項分布、ポアソン分布、負の2項分布、超幾何分布、・・・
› 連続型確率分布
正規分布、t分布、カイ2乗分布、・・・



中でも、左右対称のつりがね型(bell curve)をして正規分布は、数
学的に望ましい性質を持った分布であり、良く用いられる。
身長や知能指数などがこの分布にしたがうといわれている。
正規分布にしたがう確率変数は、標準化することによって、標準
正規分布にしたがうことになる。
標準正規分布
0.45
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
-3.5 -3 -2.5 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5
3 3.5


テストの点数などは、正規分布にしたがっていると仮
定される。
英語が平均80、標準偏差10の正規分布、数学が平均50、
標準偏差20の正規分布にそれぞれしたがうとする。
英語と数学の成績の分布
f(x)
0.05
数学
英語
0.04
0.03
0.02
0.01
0
0
10
20
30
40
50
60
70
80
90
100
点数

このとき、英語は70点から90点のあいだに全体の68.3%が分布し
ており、数学は30点から70点のあいだに全体の68.3%が、10点か
ら90点のあいだに全体の95.4%が分布していると考えられる。
3) 確率の定義
ⅰ) 先験的確率(古典的確率、数学的確率などともいう)の定義
ⅱ) 経験的確率
  =
1
2
ⅲ) 主観的確率



経験的確率の考え方を用いることによって、おこりうる結果が
同様に確からしいとはいえない場合や、すべての結果がわから
ない場合でも確率を求めることができる。
しかし、同じ条件のもとで繰り返し十分大きい観察が不可能な
事象については、経験的確率の定義を用いることはできない。
今後おこるであろう、不確実なことがらについて、「確率」と
いう言葉を用いることがあるが、これは不適切なのであろう
か?
(例)

スポーツの戦術において、「確率の高い方を選ぶ」
これらは、主観的確率の定義には合致する。
› 事象Aに対する個人の確信の度合いを数値で表したものP(A)を事
象Aの主観的確率という。
(例)WBC(World Baseball Classic)第1ラウンドにおいて、日本
がキューバに勝つ確率は60%である。
⇒ 野球などのスポーツにおいて、同じ条件のもとで、繰り返し十分な観
察をすることは不可能である。(過去の対戦とは、選手、調子、試合間隔、
開催場所などの条件が異なっており、同一条件とはいえない。)

主観的確率は個人の確信によって定まるので、同じ事象に対し
ても確率の評価は異なる。
⇒ このことから賭けがはじめて成立する。
(例) 日本シリーズで日本ハムと巨人のどちらが勝つか。
 日本ハムに賭ける人 - 日本ハムが勝つ確率(主観的確率)が高い。
 巨人に賭ける人 - 巨人が勝つ確率(主観的確率)が高い。
この両者が存在することによって、初めて賭けが成立する。
全員が「日本ハムが勝つ確率が高い」と思っていたら賭けは成立しない。
しかし、勝つ確率が低い方に賭けることもある。それは当たった時にもらえる金額
が多くなるからである。 ⇒ 期待値の大きさで判断している。
主観的確率
経験的確率
先験的確率
(例) 赤球5個、白球5個の計10個の球が入った袋から、2個球を取り出すこ
とは、10個の母集団から2個の標本を選ぶことと同じことである。
母集団(個体数N)
母集団
標本(個体数n)
標本
2
赤球2個
9
赤球1個、白球1個
白球2個
2
9
×
×
5
9
×
×
×
×
×
×
×
×
×
赤球2個
赤球1個
白球1個
×
×
×
×
×
白球2個
赤球1個
白球1個
・・・
赤
球
2
個
の
標
本
の
個
数
は
全
体
の
2
9

この例において、標本に含まれる赤球の個数をxとすると、xの値
と確率の対応関係は下のようになる。
xの分布

0
1
2
0.6
0.5
()
2
9
5
9
2
9
0.4
0.3
0.2
0.1
0
0
1
2
このxの分布は、標本の個体数nが大きくなる時、正規分布に近づく。
⇒ 中心極限定理
0.06
0.06
0.05
0.05
0.04
0.04
0.03
0.03
0.02
0.02
0.01
0.01
0
0
母集団(大きさ N)
×
標本(大きさ n)
×
×
×
×
×
×
×
×
×
× ×
母比率
標本比率 p̂
p
母集団(有権者1億人)
標本(約1000人)
×
×
×
×
×
内閣支持率などの比率の調査に

おいて、 標本比率  =  の標本
分布を考える。
 は母比率を中心とする正規分
布になる。
よって、  として、  からどの程度
異なる値が出てくるかがわかる。
×
×
×
母比率 p=0.6
×
×
標本比率 
有権者のうち、1000人を標本とし
て選ぶ調査で、母集団の内閣支
持率が0.6であったとすると、0.57
と0.63のあいだに の95%が分布
する。
⇒ この性質を用いて、たとえば
 = 0.62 という結果が得られたな
ら、この値から、母比率が含まれ
るであろう区間を推定できる。
(区間推定)詳しくは「統計学」で
 の分布
標本から求められた内閣支持率は、
標本誤差があり、母比率をピタリと
当てることは難しい。
そこで、母比率pが含まれるであろ
う区間を考え、推定する。
95%
0.57
p=0.6
×
0.61
0.63
※ その他の例として、次のようなものが考えられる。
ダウンロード

推測統計の基礎