統計学
第2週 10/01(月)
担当:鈴木智也
1
前回のポイント
• 「記述統計」と「推測統計」。
• データ自体の規則性を記述するのが「記
述統計」、データを生み出した背景を推測
するのが「推測統計」である。
• 推測統計は記述統計に基づくので、まず
は記述統計から学ぶ。
• 以下、データの観測値をX1、X2・・・と表す。
2
講義の流れ
第1部:記述統計 ← 今はここ
第2部:確率論
第3部:推測統計
• 第1部の構成
一変数の規則性を記述する← ここ!
規則性を視覚化する
二変数の関係を記述する
3
今日のトピック
一変数ついて、規則性を数量的に把握。
三つの基本的な指標
• 平均 ← データの代表値(の一つ)
• 分散 ← 標準偏差を出すために導出
• 標準偏差 ← データの散らばり具合
4
平均(Mean)
☆平均(小学校の算数で履修済み)
X1  X 2    X m
X

m
m

1
{X i  }
m
i 1
X のデータから、m 個の観測値について、
大体どれ位の値になるかの指標。
5
分散(Variance)
☆分散
2
2
(
X

X
)



(
X

X
)
1
2
1
m
s 

m
m
m

( X i  X )2
i 1
Xi が概ね平均値からどのくらい離れている
かを表す指標。(散らばり具合を記述)
Q:なぜ二乗しているのかを考えてみよう。
6
標準偏差(Standard Deviation)
☆標準偏差 ← 誤差の平均
s
2
s (分散の平方根)
これも散らばり具合を表す指標。
注:分散は二乗を取って計算しているので、
元々の単位とは異なる。
⇒分散の平方根を取って「標準化」すること
で、平均値と比較可能になる。
7
応用①:加重平均
• 単純平均
X1  X 2    X m
X

m
m

i 1
1
Xi
m
 全ての X i に対して、等しいウェ
イト(
1
)。
m
• 加重平均(次の例題を参照のこと)
X
m
w X ,
i
i 1
i
m
ただし、  w  1 である。
i
i 1
 X i の重要性に応じて、ウ ェイトを変える。
8
例題(加重平均の使い方)
• 食堂が二つの定食を出しており、価格と一
日あたりの売上げは以下の通りである。
A定食 500円 70食/一日
B定食 600円 30食/一日
一食あたりの平均売上げはいくらになるの
か計算せよ。
9
誤った解答の代表例
• A定食とB定食の価格の単純平均
500  600
 550円これは誤り。
2
⇒単純平均では、売上げ全体について、
A定食の貢献度:過小評価
B定食の貢献度:過大評価
(A定食とB定食の売上げ比率は7:3。)
10
正しい解答
• A定食とB定食の売上比率が70%、30%な
ので、ウェイトを0.7、0.3に設定。
加重平均: 0.7  500  0.3  600  530円 。
ウェイトの合計は1に
する。
• 別解としては、全食の売上金額を合計し、
売上件数100で割る方法もある。
500  70  600  30
単純平均:  530円。
100
11
加重平均の適用例
• TOPIX(東証平均株価)
⇒上場株式数で加重して平均を取る。
(注)日経平均株価は単純平均
• 消費者物価指数
⇒物価を品目別に加重して平均を取る。
• ファイナンス理論:期待収益率の計算
⇒収益率を確率で加重して平均を取る。
12
加重平均した場合の分散
• もしも平均を加重平均で算出するなら、分
散も同じように加重して算出。
X
m
w X
i
i
i 1
 s2 
m

wi ( X i  X ) 2  s  s 2 .
i 1
• これはファイナンスで「リスク」を計算する
際に多用する(詳細は『金融論』等で)。
13
応用②:変動係数
• 例:先進国Aと途上国B、どちらが貧富の
差が激しいのか?
• 貧富の差は所得の散らばり具合を二国で
比べればよい。
⇒分散や標準偏差を比較すれば、平均所得
の高い先進国の方が、単位が大きい分、
所得のちらばりが大きくなってしまうので、
修正が必要である。
14
変動係数(続き)
⇒平均所得から概ねどのくらいの範囲に散ら
ばっているかを比較可能にしたい。
⇒標準偏差を平均値で割ってやる。
s
CV  , CVは Coefficien t Variation の略。
X
15
応用③:標準化変量
• ある観測値がデータ全体の中でどのくらい
の位置にあるのかは、平均値と標準偏差
を用いて、「標準化」した「変量」で測る。
• 標準化変量
Xi  X
zi 
.
s
(注)「標準化」の手順は統計学では頻出!
16
標準化変量の適用
• 学力テストの偏差値は、平均点を50にし
て、標準化変量を10倍して算出している。
 Xi  X
偏差値  50  10
 s

  50  10 z.

• 異なるデータ間で学力を比較できる方法の
一つ。
17
付論
• 平均値以外の代表値の指標としては、次
の二つがよく用いられる。
(1)中位数(Median)
データを大きさの順に並べたとき、ちょうど
中央に位置する値。
(2)最頻値(Mode)
最も多くのデータが集中している値。
18
ダウンロード

10/01(月