統計数理(2003)
第 51 巻 第 2 号 261–295
c 2003 統計数理研究所
特集「個票開示問題の統計理論」
[総合報告]
孤立個体数の推測
渋谷 政昭
†
(受付 2003 年 2 月 4 日;改訂 2003 年 9 月 19 日)
目 次
まえがき
孤立個体数
2.1 調査データ公有化における個体データの漏洩管理
2.2 漏洩の危険を測る尺度
2.3 推測の困難
2.3.1 有限母集団モデルと寸法指標
2.3.2 素朴な推定量
2.3.3 数値例
2.3.4 ポアソン過程モデル
3. 多数カテゴリーの多様性モデル
3.1 Zipf 法則
3.1.1 Zipf 分布
3.2 Karlin-Rouault 理論
3.2.1 準備
3.2.2 期待値の増大
3.2.3 分散の増大
3.2.4 漸近正規性
3.2.5 強法則
3.3 多数出現の希少事象 LNRE
3.3.1 LNRE
3.3.2 G 関数,Q 関数
3.3.3 収束定理
3.4 種々の推測問題
4. 事前分布の導入
4.1 モデルの分類と事前分布の役割
4.1.1 モデルの分類
4.1.2 事前分布
4.2 無限分解可能離散分布の役割
4.3 新しい研究方向
4.3.1 無限分解可能分布に基づくモデル
4.3.2 多数希少現象との関係
4.3.3 Pitman 確率分割と関連する分布
5. 付録
5.1 一般 Zipf 分布
5.2 Karlin-Rouault-Sibuya 分布
5.2.1 分布の定義
5.2.2 分布の生成
5.2.3 無限分解可能確率母関数との関係
5.2.4 零打切り負の二項分布
1.
2.
†
高千穂大学 経営学部:〒 168–8508 東京都杉並区大宮 2–19–1;[email protected]
262
統計数理 第 51 巻 第 2 号 2003
5.3
要
データ公有化の環境
(調査データ公有化の政治)
5.3.1 統計法
5.3.2 統計の真実性
5.3.3 副次的分析と個人の秘密
5.3.4 研究者の倫理
旨
分類変量の分類数が非常に多く,各分類の確率よりは,確率全体の特徴が重視される分野が
ある.生態学における種の多様性,言語学における語彙,考古学における遺物類のパターン,
などが典型例である.標本調査における個人データ保護もこれに含められる.
母集団個体の質的な属性に注目し,量的属性は区分して質的属性と同一視する.個体の識別
子を除いて多重分割度数表に集約する.分割表の多重度が大きいとセルの数が多くなり,標本
の大きさに匹敵し,超えることもある.
本稿では “母集団および標本で孤立している個体数の推測”という課題を議論する.標本の観
測度数が 1 のセルがいくつかあるとき,そのなかで母集団の度数も 1 のものがいくつあるか,
標本だけから予測したい.
最初にこの数を,調査データを公有化するときに生ずる個体データ漏洩危険の尺度として用
いることを議論する.次に多数カテゴリーの多様性の統計学で,この課題が占める役割につい
て議論し,この分野の主要成果を概観する.最後に最近の研究の成果と現在の方向を展望する.
本文中の特殊な話題を付録で補足する.
キーワード: ジッフ法則,寸法指標,多数希少事象,多様性モデル,ミクロ統計の公
有化,無限分解可能確率母関数.
1.
まえがき
分類変量
(categorical data)で分類数が非常に多く,各分類の頻度・比率による確率の推測よ
りは,分類確率の全体の状況が重視される分野がある.生態学における種の多様性,言語学に
おける語彙,考古学における遺物類のパターン,などの研究が典型的である.標本調査におけ
る個人データ保護もこれに含めることができる.
母集団の個体についていくつかの質的な属性(attributes)に注目する.量的属性は区間に分
けて質的属性と同一視する.個体の識別子
(ID)
を除くと,母集団が多重分割度数表に集約され
る.属性の種類が多い,つまり分割表の多重度が大きいと分類組合わせ
(セル)
の数が非常に多
くなり,母集団の大きさに匹敵し,標本の大きさを超えることもある.以下の議論では特に断
らない限り,分類変量の順序と分割表構造を問題とせず,単純な分類変量として議論する.
本稿では “母集団および標本で孤立している個体数の推測”という特殊な課題を議論する.標
本の観測度数が 1 のカテゴリーがいくつかあるとき,そのカテゴリーの母集団の度数も 1 であ
るものがいくつあるか,を標本だけから予測したい.
最初にこの数が,調査データを公有化するときに生ずる個体データ漏洩危険の尺度としての
役割を議論し,この課題が困難であることを示す
(第 2 節)
.
次に多数カテゴリーの多様性の議論で,この課題が占める役割について議論し,この分野に
おけるこれまでの成果をまとめる.諸種の Zipf 法則,特にカーリン・ルオー中心極限定理,多
数希少事象を紹介する
(第 3 節)
.
最後に最近の研究の成果と現在の方向を展望する.特に無限分解可能離散分布の役割を議論
孤立個体数の推測
263
する
(第 4 節).
本文中の特殊な話題を付録として補足する
(第 5 節).
なお推測の具体的な方法は他の論文に譲り,モデルの構成を中心に議論する.
2.
孤立個体数
2.1 調査データ公有化における個体データの漏洩管理
本特集号のテーマは,標本調査の未加工データ,つまり “個票”あるいは “ミクロ統計”と呼
ばれるものを,調査目的から外れた副次的解析に利用するために,調査主体の管理を離れた公
共のものとするとき,被調査個体
(個人,世帯,事業所など)
の秘密を守りながら,データの情
報をできるだけ活用する方法論である.
古典的な統計的方法では集団を観測するとき,もっぱらその中心,典型を集団の特徴とみな
している.個体の特徴を表わす数量であればその算術平均など,測定値を縮約,要約する統計
量が重要である.そのために統計データの公表は層に分けた上で平均,比率を 2 重表で表示す
ることが多い.このような統計量を公表する限り,個人データ漏洩の危険は比較的少ない.
種々のモデルを構築するためにできるだけ未加工の詳細なデータを必要とすることと,個体
データを秘匿することは,対立する要求である.“木を見て森を見ず”というたとえがあり,統
計調査の目的が集団を理解するためであって,集団を構成する個体の属性ではないことを強調
するためにも引用される.しかしながら集団の理解は個体の観測,測定から出発するし,集団
を調べれば,その中にはきわだった特徴をもつ個体が多数個存在する.
個体の秘密が漏洩しないように,特異な個体が存在する事実をできるだけ損わず,しかもで
きるだけ多くの人が利用できるようにするのが “ミクロ統計の漏洩管理(Statistical Disclosure
(1999)を参照.
Control)”である.たとえば Willenborg and de Waal(1996,2001),渋谷
2.2 漏洩の危険を測る尺度
被調査個体の秘密漏洩で影響が大きいのは個人の場合である.個人の秘密データを保護する
とき,匿名を保証することと,それと関連した秘密データをかくすことの 2 側面がある.たと
えば年齢,職業,住所の地域,とともに高額所得が記載されていれば個人が識別されやすい.
すべての項目の分類を粗くするのが一つの方法であるが,それは副次的分析のための情報を損
うことになる.高額所得という,隠したい,あるいは誇示したくない,データを,ある金額以
上とあいまいにすることになる.
なま
(生)
の加工されていないデータにたいして,欠測,グループ化,など変換されたデータ
すべてを “不完全データ incomplete data”という概念にまとめ,失われたデータを復元する研
究がある.秘匿と正反対の研究であり,両刃の剣である.不完全データ分析で “この地域に,
ある金額以上の所得者が何人いる”という推測を高い確率で行えるとしたとき,これが個人の
秘密をおびやかすとも言えるが,危険を測りにくい.
そのため本稿では氏名,住所,電話番号などを消去して匿名としたつもりの被調査者の氏名
が公表した個票データから識別できる “再識別 re-identification”だけを危険とする.
このように限定しても,悪意をもって再識別しようと試みる “侵入者 intruder”が,特定個人
の属性について,個票データと対照できる項目をいくつ知っているかによって可能性が大きく
変わる.そもそもある特定個人が公開されるデータセットに入っていることを確信しているこ
とと,データを分析していて特異なデータに気付くなど,では “危険のシナリオ”が違う.
諸個人についてのデータベースにアクセスでき,それと個票データと対照することにより,
できるだけ多くの特異な個人を見出そうという IT 技術者の犯罪がもっとも危険である.デー
タベースのなかの特異な現象を発見する “データマイニング”は,個人データ保護と逆向きの仕
264
統計数理 第 51 巻 第 2 号 2003
事を目的としており,方法論に共通することが多いであろう.
侵入者が再識別に役立つ項目のデータを母集団全部について知っているという極端な場合を
想定し,公開された個票データから本人を再識別できる確率により,漏洩の危険度を計るのが
本論文の課題である.その根拠は問題の定式化が明確であること,それでもなお難問であるこ
と,にある.
したがって,この尺度を適切に評価できたとして,それをどのように解釈するかは別問題で
あること,あくまで一つの尺度であることを強調しておきたい.
2.3
推測の困難
2.3.1 有限母集団モデルと寸法指標
大きさ N の母集団の個体が K 種のカテゴリー
(category,あるいはセル cell,類別 homology)
に分けられ,各カテゴリーに属する個体数が Mk ≥ 0, k = 1, . . . , K, であるとする.この母集
団から単純非復元確率抽出により得た,大きさ n の標本の分類変量を X = (X1 , . . . , XK ) とす
る.これは多変量超幾何分布に従う:
!
!,
!
M1
MK
N
P {X = (x1 , . . . , xK )} =
···
(2.1)
x1
xK
n
!Q
ffi
xk
K
n
N!
n!(N − n)!
k=1 Mk
Q
=
.
= Q
x1 , . . . , x K
Nn
k xk !(Mk − xk )!
k Mk !
P
P
ただし N = k Mk , n = k xk ; N n = N (N − 1) · · · (N − n + 1) である.
もしも各分類の意味を無視して,{M1 , . . . , MK }, {x1 , . . . , xK } を集合として考えるならば,
これらの離散的な順序統計量を考えることになる.大きい方に関心があれば降順に,逆ならば
昇順に並べる.さらにそれを見やすくするために,母集団および標本における,個体数が ν の
セルの数を,それぞれ Tν および Sν とする.つまり,述語
(predicate)I[·]([ ] で包まれる事象
が生じれば 1,そうでなければ 0 の値をとる)を用いると
(2.2)
Tν =
K
X
I[Mk = ν],
Sν =
k=1
K
X
I[Xk = ν].
k=1
T = (T0 , . . . , TN ), S = (S0 , . . . , Sn ) をそれぞれ M = (M1 , . . . , MK ), X = (X1 , . . . , XK ) の
“寸法指標
(size index)
”と呼ぶ.頻度の頻度
(frequency of frequencies)
あるいは partition vector,
frequency spectrum と呼ぶ人もいる.Tν は,母集団の特性をあらわす定数であるのにたいし
て,Sν は確率変数である.
K が非常に大きければ,個人の母数 Mk , k = 1, . . . , K に関心はなく,それを要約した Tν , ν =
(パラメータ関数)
に関心がある.3.4 節「種々の推測問題」
1, 2, . . . あるいは,さらに要約した量
でさらに議論する.本論文で,標本でも母集団でも孤立している個体の数,つまり
(2.3)
U :=
K
X
I[Mk = Xk = 1],
k=1
を予測すること,あるいは E(U ) を推定することを問題とする.後で E(U ) = T1 n/N を示す.
利用できるデータは標本 (X1 , . . . , XK ) であるが,(S1 , S2 , . . . ) が十分統計量となる.
寸法指標は
X
X
(2.4)
T0 + T1 + · · · = S0 + S1 + · · · = K,
νTν = N, and
νSν = n,
ν
ν
265
孤立個体数の推測
の制約条件を満たしている.T1 および S1 はそれぞれ,母集団および標本における孤立個体
(solitons,unique individuals)の数である.
母集団についての知識が不完全で,K あるいは T0 が未知のこともある.つまり正の確率をも
つカテゴリーの数が不明の場合もある.max{X1 , . . . , Xk } がとる値の最大値を µ とする.つまり
µ = max{ν : P {Sν > 0} } とする.明らかに , µ = min(n, maxj Mj ) = min(n, max{ν : Tν > 0})
である.
もしも n が N に比べて大きければ,{ν : E(Sν ) > 0} の下限 max(0, minj (n + Mj − N )) が
存在するが,通常の標本調査では n N である.
2.3.2 素朴な推定量
定義式 (2.2) から,
(2.5)
!
!,
!
K
X
Mk
N − Mk
N
E(Sν ) =
P {Xk = ν} =
ν
n−ν
n
k=1
k=1
!
!
!,
!,
!
!
n
n
X
X
λ
n
N −λ
N −n
N
N
Tλ
Tλ
=
=
ν
ν
n−ν
λ−ν
n
λ
λ=1
λ=1
!
n
X
λ nν (N − n)λ−ν
Tλ
, nν = n(n − 1) · · · (n − ν + 1), ν = 0, 1, . . .
=
Nλ
ν
λ=1
K
X
これは和の計算順序の変更でしかない.結局 (E(S0 ), E(S1 ), . . . ) は (T0 , T1 , . . . ) の一次変換で
あり,µ が Sν および Tν の添字 ν の上限であったから,
3
2
2 3
E(S0 )
T0
6 E(S ) 7
6T 7
1 7
6
6 17
6 . 7 = W 6 . 7,
(2.6)
6 . 7
6 . 7
4 . 5
4 . 5
E(Sµ )
Tµ
ただし W は次のような µ + 1 次の正則行列である.
2
1 (N − n)/N (N − n)2 /N 2
(N − n)3 /N 3
6
2
60
n/N
2n(N − n)/N
3n(N − n)2 /N 3
6
2
2
6
3n2 (N − n)/N 3
0
n /N
W = 60
6
0
0
n3 /N 3
60
4.
.
.
..
..
..
..
.
3
...
7
...7
7
...7
7.
7
...7
.. 5
.
W の (k + 1, ν + 1) 要素が (2.5) の Tν の係数である.方程式 (2.6) を解けば,(Sν , . . . , Sµ ) の 1
次式で (Tν , . . . , Tµ ) が定まる.ν = 1 として素朴な推定量,(Tˆ1 , Tˆ2 , . . . , Tˆµ ) が得られる.これ
は (S1 , . . . , Sµ ) の一次式で,不偏推定量である.W の正則性から,一意的な線形不偏推定量で
ある.
命題 2.1. 逆行列 W −1 の (k + 1, ν + 1) 要素は
!
ν N ν (−1)ν−k (N − n)ν−k
, N ν = N (N + 1) · · · (N + ν − 1)
k
nk
である.
266
統計数理 第 51 巻 第 2 号 2003
W の (k + 1, ν + 1) 要素と比較すると,比 nk /N ν が逆転しており,負符号が網目状に入っ
ている.証明は 2 項係数の反転公式を用いる.
次の W は N = 100, n = 20, µ = 6 の場合の 7 × 7 変換行列である.W1−1 はその第 1 行,1
列を除いた 6 × 6 行列の逆行列で推定量の係数行列である.
3
2
1 0.8 0.63838
0.5081
0.40334
0.31931
0.25209
7
6 0 0.2 0.32323
0.39085
0.41905
0.42014
0.40334
7
6
7
6
7
6 0 0 0.038384 0.094001
0.15312
0.20734
0.25209
7
6
6
W = 60 0
0
0.0070501 0.023258
0.047849
0.078572 7
7
7
6
0
0
0.0012356 0.0051483
0.012844 7
60 0
7
6
40 0
0
0
0
0.00020593
0.0010405 5
0
0
0
2
W1−1
5
6
60
6
60
=6
60
6
6
40
0
0
−42.105
26.053
0
0
0
0
0
284.21
−347.37
141.84
0
0
0
−1827.9
3310.2
−2670
809.33
0
0
0
11853
−28275
33792
−20233
4856
0
3.2515e − 005
3
−79649
7
234680 7
7
−369460 7
7
327780 7
7
7
−155390 5
30755
分散共分散の陽な形は複雑となるので省略する.
統計データ保護の場合には,標本 X = (X1 , . . . , XK ) より,
U :=
K
X
I[Mk = Xk = 1],
k=1
を予測する,あるいは
E(U ) =
K
X
k=1
E( I[Mk = Xk = 1]) =
K
X
P {Xk = 1|Mk = 1} = T1 n/N,
k=1
を推定することが一つの課題である.命題 2.1 から
X
b= 1
(2.7)
νN ν (−1)ν−1 (N − n)ν−1 Sν ,
U
N ν
が一つの素朴な plug-in 推定量であることが分かる.この和を何項とるか,どのように平滑化
するかなどの問題があるが,いずれにせよ推定量は良くない.
この推測問題の困難は直感的に次のように説明できる.ある数 ν が小さく νn N である
と,抽出率 n/N のサンプリングでは,個体数 ν のカテゴリーからはほとんど個体が抽出され
ず,されても 1 個である.個体数 ν のカテゴリーが Tν 個あるとこれから平均 νTν n/N 個の個
P
体が抽出されるが,これらはほとんど孤立個体である.したがって νN/n νTν 個の個体のう
ちの平均 n/N が標本で孤立個体となり,この数はそれぞれの Tν , ν = 1, 2, . . . の値には依存し
ない.したがって逆に S1 から Tν , ν = 1, 2, . . . についての情報は得られない.Sν , ν = 2, 3, . . .
を加えても,小さな ν にたいする Tν についての情報は増えない.これは一種の逆問題,不適
切問題
(ill-posed problem)
である.
P
ν νTν /N は Mk , k = 1, . . . , K; の経験分布関数である.これが確率的により小さいほど推
測はより困難になる.
267
孤立個体数の推測
表 1.
ν
1
2
3
4
5
6
7
8
9
表 2.
Pop.
Tν
23
11
8
6
4
4
3
3
2
64
Population size index.
A
νTν
23
22
24
24
20
24
21
24
18
200
Pop.
Tν
14
10
10
9
6
4
3
2
1
59
B
νTν
14
20
30
36
30
24
21
16
9
200
Pop.
Tν
1
2
2
2
3
3
4
6
8
31
C
νTν
1
4
6
8
15
18
28
48
72
200
Sample size index Sν (3 samples of size 50 from 3 populations).
ν
0
1
2
3
4
5
37
14
6
4
3
0
Pop.
32
18
11
2
1
0
A
35
16
7
5
0
1
27
21
6
3
2
0
Pop.
27
20
7
4
1
0
B
33
10
11
2
3
0
8
7
9
5
0
2
Pop.
8
7
9
4
2
1
C
6
12
5
5
2
1
2.3.3 数値例
第 1 表のような寸法指数をもつ,3 種の母集団から,大きさ 50 の標本をそれぞれ 3 回とると,
その寸法指数が第 2 表のようになる.標本寸法指標から A, B を区別することは困難である.
このような標本より,母集団寸法指数を推定した結果は非常に悪い.
2.3.4 ポアソン過程モデル
多変量超幾何モデル
(2.1)で Mk /N → pk , k = 1, . . . , K, (M1 , . . . , MK , N → ∞) のとき, 確
率 p1 , . . . , pK の多項分布により近似できる.M1 = · · · = MK で等確率 1/K の多項分布で近
似できれば,標本寸法指標について,陽な結果を得られる.しかしわれわれの課題にたいする
知見には乏しい.渋谷政昭
(1997)参照.
多変量超幾何分布モデルの多項モデルによる近似は,非復元抽出の復元抽出による近似と
もみなせる.そうすると,多項標本からの副標本と,直接の標本との区別はなくなる.有限母
集団の場合に,大きさ n の標本と,標本に含まれなかった大きさ N − n の部分とを区別する
2K 分布表が,多項モデルでは超母集団からの,大きさ n, N − n の独立な標本となる.さら
に nMk /N → ρλk(したがって Mk (1 − n/N ) → (1 − ρ)λk ; K → ∞)
, k = 1, . . . , K ならば,Xk ,
Mk − Xk をそれぞれ平均 ρλk , (1 − ρ)λk , k = 1, . . . , K の独立なポアソン分布で近似できる.
4.1.1 節「モデルの分類」で再び議論する.
独立な,強度 λk , k = 1, . . . , K, のポアソン過程があり,それぞれの出現度数を観測できる
とする
(marked Poisson process).時間間隔 (−1, 0] での,各過程の出現度数を (X1 , . . . , XK ),
(0, t], 0 < t < ∞, での出現度数を (Y1 , . . . , YK ) とする.t = (N − n)/n とすると,Xk が標本の
個体数を,Yk が標本に入らなかった母集団の個体数を表わすものとみなせる.
P
多項モデルと同様に,標本,母集団での孤立個体数は U = K
k=1 I[Xk = 1] I[Yk = 0] である.
このモデルでは
P {Xk = x} = e−λk λxk /x!,
x = 0, 1, . . . ,
268
統計数理 第 51 巻 第 2 号 2003
P {Yk = y} = e−λk t (λk t)y /y!,
y = 0, 1, . . . ,
であるから,
P {Xk = 1 & Yk = 0} = E( I[Xk = 1] I[Yk = 0]) = λk e−λk e−λk t
= λk e−λk
∞
∞
X
X
(−λk t)n
(λk )n+1 −λk
(−1)n (n + 1)tn
.
=
e
n!
(n + 1)!
n=0
n=0
これから
E(U ) =
K
X
E( I[Xk = 1] I[Yk = 0])
j=1
K
X
(−1)j−1 jtj−1 E(Sj )
j=1
となる.
素朴な推定量は再び,E(Sj ) を S に変えたものである.最後の交項級数の収束をよくする方
法を考えるとか,部分和の項数をいくつにするかという問題が残るが,いずれにしろ推定量の
性質はよくない.
3.
多数カテゴリーの多様性モデル
多数個のカテゴリーにたいする度数が数えられており,これを順序統計量つまり寸法指標
size index にまとめる.寸法指標について,経験的な Zipf 法則およびその拡張,修正,解釈が
ある.記述統計量としての寸法指標を,背後の実体
(entity)
も含め,生態学の用語を採って,多
様性統計 abundance statistics と呼ぶことにする.以下多様性統計の諸モデルに関する議論で
ある.
3.1 Zipf 法則
Zipf(1949)
は種々の社会現象を集めて 2 種類のややあいまいな経験法則を述べた.たとえば,
アメリカの都市の人口を多い順に並べる.世界の国を面積の広い順に並べる.ある著作物中の
単語をその出現度数の多い順に並べる,等々.このとき,比較している量と順位を両対数目盛
りでプロットすると直線上に並ぶ.これが “順位と大きさの関係
(rank-size relation)”の法則で
ある.対象とする量はもちろん正の数である.有限の量のカテゴリーへのランダムな分割であ
るのか,多くの個体がもつ属性を,確率標本の順序統計量とみなすのか.その場合に連続な確
率変数であるのか離散確率変数であるのか,そのような区別に Zipf はむとんちゃくであった.
もうひとつは,逆に小さな量を考える.上記の著作物中の単語を数えると,出現度数が 1,
2,. . . と小さい単語の種類が非常に多く,しかも小さいほど多い.連続な正の量の場合には
一定長区間に級別して,それぞれの級に入る個体,カテゴリーをかぞえる.このときに,出現
度数
(あるいは級番号)
とそれに対応するカテゴリー数
(あるいは個体数)
とを両対数目盛りでプ
ロットすると,やはり直線上に並ぶ.これが “大きさと頻度の関係
(size-frequency relation)”の
法則である.非常に粗い議論をすると,順位と大きさの関係から,大きさと頻度の関係が導か
れる.Zipf 法則の簡単な紹介として,たとえば Read(1988)を参照.
この経験法則が到る所で再発見され,未だに言語学,情報学,物理学の分野で発見の論文が
現われている.厳密な議論をすれば法則の意味も多様になる.本号の別論文で議論する確率分
割も Zipf 法則に含めることができる.大きさ頻度の関係を示す諸種の分布が提案されている
(付録の一般 Zipf 分布参照).以下の第 2 節,第 3 節では本稿の主題にたいして重要な結果を
紹介する.
269
孤立個体数の推測
3.1.1 Zipf 分布
上記のことを形式的に述べよう.n 個一組のデータを降順に並べたものを
x(1) ≥ x(2) ≥ · · · ≥ x(n) ,
とする.そのとき,n が大きければ,だいたい
r α x(r) = constant,
(3.1)
α > 0,
となり,多くの場合に,α は 1 に近い.これが順位と大きさの法則である.
離散と連続の区別を曖昧にしたまま,あるオブジェクトの大きさ・規模を x, その相対頻度
R∞
を f (x), 0 f (x) dx = 1, とする.データセットの中の x 以上のオブジェクトの数を N (x) と
すると
Z ∞
N (x) = n
f (u) du = 大きさ x の一つのオブジェクトの順位
x
となる.(3.1) より N (x) = K/xα だから
f (x) = −n−1 N (x) = A x−(1+α) ,
(3.2)
である.これは大きさと頻度の法則である.
多くの著者はこれを確率分割,カテゴリーが多いときの寸法指数のばらつき,と考えてい
る.N 個の個体を K 個の個体に分けたときの寸法指数 (S1 , . . . , SN ) の分布,特に小さな度数
にたいする (S1 , S2 , . . . ) の分布を大きさと頻度の法則とみなす.あるいは 頻度の順序統計量
X(1) ≤ X(2) ≤ · · · , の分布を大きさ頻度関係とみなす.あるいは,どちらを考えているか明記
しない.順位と大きさの法則を問題にするならば,むしろ単位区間
(有限の資源)
のランダムな
分割,random spacing,のモデルのほうが適切と思われるが,ここでは議論しない.寸法指数
にたいする比率の漸近論を考えれば random spacing である.
N = (1, 2, . . . ) 上の離散確率分布としての Zipf 法則は,
(3.3)
f (x) = x−(1+a) /A,
x = 1, 2, . . . ; a > 0,
A = ζ(1 + a) =
∞
X
r −(1+a) ,
r=1
ζ はツェータ
(zeta)
関数,とみなされている.この確率分布は Zipf 分布,あるいは ツェータ分
布とよばれている.Pareto 分布の離散版である.
この小節以下の部分では B.M.Hill たちが導いた Zipf 法則的な極限定理をまとめる.事前分
布を導入する点では,現在の研究方向に近いが,Bose-Einstein 統計
(格子単体上の一様分布)
か
ら出発すること,事前分布の導入が技巧的なこと,歴史的に古いことなどから最初に述べる.
( A)
Hill(1974)
N 個の個体が K 個のカテゴリーに分類されるとし,第 k カテゴリーの個体の数を Xk とす
る.Bose-Einstein 統計では
!−1
N −1
P {(X1 , . . . , XM ) = (x1 , . . . , xM )} =
, ∀(x1 , . . . , xM ), xk > 0, 1 ≤ k ≤ K,
K −1
となる.K, N が確率変数で,FN (y) = P {K/N ≤ y | N } が N → ∞ (in P ) のときに proper な
分布 F (y) に収束することを仮定する.このとき度数 ν のセルの割合 Sν /M が Θ(1 − Θ)ν−1
の分布に収束する.ただし,Θ は F に従う確率変数である.特に F がベータ分布 Be (a, b) に
従うならば
E (Θ(1 − Θ)ν ) ∼ a Γ(a + b) (Γ(b))−1 ν −(1+a) .
270
統計数理 第 51 巻 第 2 号 2003
これは Zipf 法則である.
期待値の収束を分布収束とするために,各カテゴリーを細分化し,3 種の統計量を考える.
(i) 各カテゴリー k に属する Nk 個の個体が Kk の小カテゴリーに分かれるとし,その最
大度数を Lk , k = 1, . . . , K とする.Kk /Nk が独立で,Nk → ∞ (in P ) のときにある
分布 F に収束することを仮定し,(L1 , . . . , LK ) の順序統計量を考えると,これが Zipf
法則を示す.
(ii) (i) と同様であるが,各カテゴリー内の最大度数ではなく,ランダムに選んだひとつの
Xk∗ , k = 1, . . . , K, の順序統計量が Zipf 法則を示す.
P
(iii) 全体の
Kk 個の小カテゴリの中の度数の順序統計量が Zipf 法則を示す.
(B)Chen(1980)
(X1 , . . . , XK ) が対称なディリクレ多項分布
(多変量負の超幾何分布)MNgHg (N, K, β) にし
たがうとする.さらに K が N に依存する確率変数で FN (y) = P {K/N ≤ y | N, β} について
上と同じ仮定をする.F (y) ∼ cy α (y → 0), α > 0, ならば
Z 1
`
´
lim E K −1 Sν | N, β =
h(ν; β, θ) dF (θ) = φ(ν),
N →∞
φ(ν) = Aν
−(1+a)
0
, ν → ∞. ただし
h(ν; β, θ) =
Γ(ν + β − 1)
Γ(β) (ν − 1)!
„
θβ
1 − θ + θβ
«β „
1−θ
1 − θ + θβ
«ν−1
,
ν = 1, 2, . . . ,
さらに Sν の漸近正規性を示せる.
(C)Hill and Woodroofe(1975)
( A)
と同じ二重階層モデルで,さらに条件を加えることにより Sν /M の Zipf 分布への分布収
束を示している.
最後に extreme process から Zipf 法則が導けることを示す.
( D)
Khmaladze et al.
(1997)
新記録
(Xi )∞
i=1
N+ 上の iid,
Mn := max Xi ,
i≤n
τn = inf {t : Xt = Mn } ,
Mn は時刻 n における記録値,あるいは単に新記録
(record)という.τn は時刻 n の記録値が
生じた時刻である.
X
Sn =
I[ Mτn −1 < Xi ≤ Mn ]
τn ≤i≤n
とすると
P {Sn = k} =
Pn
I[ Xi = Mn ] は収束しない.
ある.
i=1
1
1
+ I[ k = 1 ].
k(k + 1)
n
P
τn ≤i≤n
I[ Mn − < Xi ≤ Mn ] について興味ある結果が
3.2 Karlin-Rouault 理論
確率の小さなカテゴリーが多数存在して,標本数を大きくすれば,あるいは観測時間を長くす
ればそれらが現われてくると考える.当然確率の小さなカテゴリーの個数についてのモデルが
必要である.Karlin(1967)は,アーベル型理論を適用するために確率の系列が regular varying
271
孤立個体数の推測
であることを仮定して,中心極限定理,大数の強法則を導いた.この分野でもっとも強い結果
である.これらの定理の条件は強過ぎるが,このような仮定なしに議論することは,複雑過ぎ
る,と Karlin は述べている.
Rouault(1978)は数理的言語理論で用いられるモデルを用いる.文を話す人,書く人の頭脳
に,統語法則
(syntax)
に従う単語がランダムに現われ,マルコフ連鎖に従って単語が継続して文
を作る,という生成文法モデルである.このようなモデルで現われる単語の出現確率が Karlin
の条件を満たすことを示した.彼はまた,Karlin の理論で,度数 1,2,. . . の寸法指標の比率
について大数法則が成り立ち,それが簡単な確率関数であることを注意した.
3.2.1 準備
P∞
可算集合 N = {1, 2, . . . } の上の確率分布 p = (pn )∞
n=1 , pn ≥ pn+1 > 0,
n=1 pn = 1, にたい
して
α(x) := max{j|pj ≥ 1/x} =
(3.4)
∞
X
I[pn ≥ 1/x],
1 < x < ∞,
n=1
とする.言わば p の上側確率 1/x の確率点が α(x) である.これについて
(3.5)
α(x) = xγ L(x),
Condition 1:
0 ≤ γ ≤ 1,
ただし L : (0, ∞) → R+ は緩変化関数 (slowly varying function),を仮定する:
lim L(cx)/L(x) = 1,
x→∞
∀c > 0.
一般性を失うことなく,L(x) は連続で L(0) < ∞ とする.
P
Condition 1 は,生存関数 β(x) := ∞
n=1 I[pn ≥ x], 0 < x < 1,について
β(x) = x−γ L(x),
0 ≤ γ ≤ 1,
L(cx)/L(x) = 1,
x → 0,
を仮定することと同等である.
k ∞
(XN )∞
N=1 を p に従う独立な確率変数の系列とし,これより導かれる確率変数列 (XN )N=1 ,
r ∞
∗ ∞
(ZN )N=1 ,(ZN )N=1 を
k
XN
:=
N
X
変数値 k の出現度数
(無限カテゴリー数の多項確率変数)
,
I[ Xm = k ]; k = 1, 2, . . . ,
m=1
r
ZN
:=
N
X
k
I[ XN
= r ]; r = 1, 2, . . . ,
r 回出現した変数の数
(寸法指標)
,
k=1
∗
:=
ZN
N
X
Znr ;
出現した変数値の数,
r=1
により定義する.あるいは強度 1 のポアソン過程 {N (t), 0 ≤ t < ∞} を用い,互いに独立な,
可算個の,強度 pn , n = 1, 2, . . . , のポアソン過程を (XN )∞
N=1 より
k
XN(t)
,
0≤t<∞:
時間間隔 (0, t) における変数値 k の出現度数,
r
∗
とし,これより ZN(t)
, ZN(t)
, などを定義する.
Condition 1 について
補題 3.1. 確率母関数 P (ξ) =
は緩変化である
(つまり γ = 0).
P∞
k=1
pk ξ k の収束半径が 1 より大ならば
(Condition 2)α(x)
272
統計数理 第 51 巻 第 2 号 2003
Remark 3.1. limn→∞ pn+1 /pn = ρ < 1 であれば P (ξ) の収束半径は 1/ρ 以上である.つま
P
り Condition 2 を満たす.このとき,(pn )n の分布関数を F (u) = n≤u pn として,A(x) を
1 − F (A(x)) ≤ 1/x ≤ 1 − F (A(x)−)
で定義すると A(x) ∼ α(x), x → ∞, である.
例 1.幾何分布: pn = λ(1 − λ)n−1 , 0 < λ < 1, n = 1, 2, . . . とすると,γ = 0:
α(x) ∼ log x / (− log(1 − λ)),
x → ∞.
例 2.ポアソン分布: pn = e−λ λn−1 /(n − 1)!, n = 1, 2, . . . とすると,γ = 0:
α(x) ∼ log x / log(log x) ,
x → ∞.
例 3.Condition 2 は α(x) が緩変化となる十分条件で,必要条件ではない.
β
pn = c2−n ,
0 < β < 1,
とすると P (ξ) の収束半径は 1(Condition 3)だが,
α(x) ∼ (log x/ log 2)1/β
は緩変化,γ = 0.
例 4.ツェータ分布: pn ∼ cn−β , β > 1, n → ∞ ならば,0 < γ = 1/β < 1:
α(x) ∼ c1/β x1/β .
‹
例 5.pn = b (n + 1)(log(n + 1))β+1 , β > 0,ならば,γ = 1:
α(x) ∼ x/(b(log x)1+β ).
補題 3.2. pn+1 /pn → 1,したがって P (ξ) の収束半径が 1 ならば
(Condition 3)
α((1 + c)x) − α(x) → ∞,
x → ∞,
∀c > 0.
Condition 1 で α(x) の条件を与えたが,定義そのものから次の条件を満たしている.
補題 3.3. α(x) は α(x)/x → 0 (x → ∞) および
期待値の増大
3.2.2
∗
M (t) := E(ZN(t)
)=
∞
X
(1 − e−tpk ) =
n=1
Z
∞
=
0
1 −1/y
e
α(ty) dy ∼ α(t)
y2
Z
0
∞
Z
∞
0
R∞
1
(α(x)/x2 ) dx ≤ 1 を満たす.
(1 − e−t/x ) dα(x) =
y γ −1/y
e
dy = α(t)Γ(1 − γ),
y2
Z
∞
0
t −t/x
e
α(x) dx
x2
0 ≤ γ < 1,
t → ∞.
(たとえば Bingham
α を含む積分の漸近評価は regular varying に関する Karamata 理論による.
)
et al.(1989)に詳しく説明されている.
273
孤立個体数の推測
γ = 1 の場合は別に扱わなければならない.このとき補題 3.3 から L(t) → 0 (t → ∞) であ
り,十分大きな t に関して L(t) は有界である.
補題 3.4.
α(t) = tL(t)
で L(t) が緩変化関数であれば
(γ = 1)
L∗ (t) =
(3.6)
Z
∞
0
e−1/y
L(ty) dy
y
も t → ∞ で緩変化である.
∗
命題 3.1. α(x) が Condition 1 を満たすとき,M (t) = E(ZN(t)
)は
8
<Γ(1 − γ)tγ L(t), 0 ≤ γ < 1,
M (t) ∼
:tL∗ (t),
γ = 1;
t → ∞,
を満たす.L∗ (t) は 補題 3.4 で導入した関数である.
Corollary.
r
M (t; r) := E(ZN(t)
)=
1
r!
Z
∞
e−t/x
0
tr
dα(x),
xr
とすると,命題と同様の計算により,
8
<γ Γ(r−γ) tγ L(t), 0 < γ < 1, r ≥ 1 or γ = 1,
Γ(r+1)
(3.7)
M (t; r) ∼
:tL∗ (t),
γ = 1, r = 1;
t → ∞.
r ≥ 2,
γ = 0 のとき (3.7) の右辺は無意味で,M (t; 1) の行動は erratic である.
たとえば limn pn+1 /pn <
1 のとき γ = 0.下記の Remark 3.3 とその反例にしたがって,M (t; 1) が有界だが,振動する
可能性があることを確かめられる.
Remark 3.2. 一般に L∗ (t)/L(t) → 0 であるが,さらに詳しく調べる.
‹`
´
L(t) ∼ 1/(log t)ρ , ρ > 1 ⇒ L∗ (t) ∼ 1 (ρ − 1)(log t)ρ−1 , t → ∞,
‹`
´
L(t) ∼ 1 /((log t)(log log t)ρ ) , ρ > 1 ⇒ L∗ (t) ∼ 1 (ρ − 1)(log log t)ρ−1 ,
t → ∞.
∗
命題 3.1 は t を N に変えれば,MN = E(ZN
) の漸近定理となる.
3.2.3 分散の増大
r
ZN(t)
が独立な 2 進確率変数の和であるから,
∗
V (t) := Var(ZN(t)
)=
∞
X
r=1
したがって
V (t)
∼
r
Var(ZN(t)
)=
∞
X
(e−pn t − e−2pn t ) = M (2t) − M (t).
n=1
8
<Γ(1 − γ)(2γ − 1)L(t)tγ ,
:tL∗ (t),
0 < γ < 1,
γ = 1,
t → ∞.
274
統計数理 第 51 巻 第 2 号 2003
M (t) の場合と違い,上式には γ = 0 したがって α(x) = L(x) が緩変化の場合が含まれておらず,
別に扱わねばならない.pdf の収束範囲が 1 で,したがって V (t) ∼ L(2t) − L(t) → ∞(t → ∞)
となる場合が典型的である.しかしいろいろな場合がある.
1.
Remark 3.3.
Remark 3.1 の条件が満たされる場合
limn→∞ pn+1 /pn < 1
⇒
V (t)
bounded.
上の条件の下で,V (t) が収束するとは限らない.たとえば次のような例がある.
n
l
反例.pn = C2−2 , n = 1, 2, . . . , とすると tl = 22 , l = 1, 2, . . . にたいして V (tl ) ≥ C > 0.
2l +l
しかし τl = 2
にたいして V (τl ) → 0 (l → ∞). この場合 V (t) は有界.
3. また V (t) が発振しながら +∞ になることもある.
l
反例.pn = C2−2r , (r − 1)r/2 + 1 ≤ n ≤ r(r + 1)/2, r = 1, 2, . . . とすると tl = 22 にた
l
いして V (tl ) ≥ l(e−1 − e−2 ) → ∞ (l → ∞), τl = 22 +l にたいして V (τl ) → 0 (l → ∞).
4. 収束する場合もある.
命題 3.2.
Z
1 x
limn→∞ pn+1 /pn < 1,
lim
[α(2ξ) − α(ξ)] dξ = γ0 , 0 < γ0 < ∞,
x→∞ x 0
2.
⇒
5.
lim V (t) = γ0 .
t→∞
収束する具体例として次の場合がある.
例 6.
(例 1 と同じ幾何分布の場合)
Z
1 x
lim
(α(2u) − α(u)) du = log 2 / (− log(1 − ρ)).
x→∞ x 0
これらをまとめると,以下のようになる.
r
Var(ZN(t)
)
∼
8
<
γ
tγ L(t)
Γ(r+1)
:tL∗ (t),
“
Γ(r − γ) −
2γ Γ(2r−γ)
22r Γ(r+1)
”
, 0 < γ < 1,
r≥1
∗
E(ZN(t)
− M (t))2m ∼ dγ,m (M (t))m ,
0 < γ < 1,
γ = 1;
t → ∞.
m = 1, 2, . . .
3.2.4 漸近正規性
∗
r
これまでの結果に基いて ZN(t)
,ZN(t)
の漸近正規性を示す.
主要な結果
命題 3.3. Condition 1,0 < γ ≤ 1 の下で
1/2
BN
D
γ = 1,
t → ∞.
γ = 1, r = 1;
8
<Γ(1 − γ)(2γ − 1)N γ L(N ),
∗
Var(ZN(t)
)∼
:N L∗ (N ),
or
∗
∗
(ZN
− E(ZN
))/BN
→ N (0, 1),
8
<Γ(1 − γ)(2γ − 1)N γ L(N ), 0 < γ < 1,
=
:N L∗ (N ),
γ = 1, N → ∞.
r ≥ 2,
275
孤立個体数の推測
命題 3.4. Condition 1,0 < γ < 1,の下で正整数 r1 < · · · < rν を固定すると
‹
r
r
(ZNj − E(ZNj )) (N γ L(N ))1/2 , j = 1, . . . , ν
の同時分布は N (0, Σ) に分布収束する.Σ の要素は次の通りである.
γΓ(ri + rj − γ) γ−ri −rj
2
, i = j,
ri !rj !
„
«
γ
Γ(2ri − γ)
σi2 =
Γ(ri − γ) − 2−2ri +γ
,
Γ(ri + 1)
Γ(ri + 1)
σij = −
i = 1, . . . , ν.
γ = 1 のとき,
1
1
(ZN
− E(ZN
))/(N L∗ (N ))1/2
r
(ZN
−
r
E(ZN
))/(br N L(N ))1/2
br =
3.2.5
D
→
D
→
N (0, 1),
N (0, 1),
Γ(2r − 1)
Γ(r − 1)
,
− 21−2r
Γ(r + 1)
(Γ(r + 1))2
r ≥ 2.
強法則
命題 3.5. (pn )n に関して何の制約もなく,
a.s.
∗
∗
ZN
/E(ZN
)
−→
r∗
r∗
/E(ZN
)
ZN
a.s.
−→
1,
N → ∞,
1,
N → ∞.
1,
N → ∞.
r
しかし ZN
については条件が必要である.
命題 3.6. Condition 1,0 < γ ≤ 1,の下で
r
r
ZN
/E(ZN
)
a.s.
−→
Condition 1 の条件の下では,Rouault(1978)が注意したように,
r
∗
ZN
/ZN
a.s.
−→
Γ(r − γ)
γ(1 − γ)[r−1]
γ
=
,
Γ(1 − γ) Γ(r + 1)
r!
r = 1, 2, . . . ,
N → ∞.
これは Karlin-Rouault-Sibuya 分布である.
Rouault(1978)は Markov 連鎖モデルから Condition 1 を導いた.
3.3
多数出現の希少事象 LNRE
3.3.1 LNRE
c 個のカテゴリーの確率の系列 pn = (p1n , . . . , pcn ) にたいする多項確率の系列を Mn (n, pn ),
P
これからの標本を X n = (X1n , . . . , Xcn ), ci=1 Xin = n, とする.一般に c = c(n) が n ととも
に増加する 3 角配列を考える.
!
c
c
X
X
µn (m) = E
I[Xin = m] , m = 1, . . . , c; µn =
µn (m),
i=1
m=1
と記す.µn (m) は X n の寸法指標の期待値,µn はその総和である.pn が n によらず固定し
た確率であると Xin → ∞(a.s.) であるから
lim µn (m) = 0, m < ∞;
n→∞
lim µn = ∞,
n→∞
276
統計数理 第 51 巻 第 2 号 2003
というつまらない結果となる.語彙調査で見られ興味あるのは次の現象である.
条件.
lim inf E(µn (1))/n > 0,
(d.1)
n→∞
lim E(µn ) = ∞ and lim
(d.2)
n→∞
n→∞
E(µn (1))
> 0,
E(µn )
(d.1)は,度数 1 のカテゴリーが全体に占める割合がいつまでも消滅しない条件,
(d.2)は,新
しいカテゴリーの出現が無限に続き,出現カテゴリー中で度数 1 だけの新しいカテゴリーの割
合が消えない,という条件である.Khmaladze たちは
(d.1),
(d.2)の条件を満たす (pn )∞
n=1 を
a sequence with large number of rare events(LNRE)
と名付け,研究した.Khmaladze(1987),
Khmaladze and Chitashvili(1989)参照.
(d.1)⇒(d.2)
であるが逆は成り立たないことを後で反例により示す.pn ,c(n) をどのように
動かせば
(d.1)
(
,d.2)
が成り立つかをこの節で議論する.寸法指標そのものでなく,期待値を扱
う制約は最後に議論する.
次の 2 つの関数が本質的となる.これらを G 関数,Q 関数と呼ぶ.
(3.8)
Gn (z) =
c
X
I[pin > z],
Qn (z) =
i=1
c
X
pin I[pin ≤ z],
i=1
Gn は Gn (0) = c, Gn (1) = 0, を満たす減少関数で,pn を降順に並べたときの順位である.
前節の Karlin の関数 α を用いると Qn (z) = α(1/z) である.Qn (z) は離散確率変数 Zn を
P {Zn = pin } = pin , i = 1, 2, . . . により定義すると,その分布関数である.これらの関数によっ
て条件
(d.1)
(
,d.2)を書き換えることができる.
命題 3.7. (i) 条件
(d.1)は次の条件と同値である.(c.1) ある z < ∞ にたいして
lim inf Qn (z/n) > 0,
n→∞
(ii) 条件
(d.2)は次の条件と同値である.(c.2) ある z < ∞ にたいして
lim nQn (z/n) = ∞
n→∞
and
lim sup
n→∞
Gn (z/n)
= ∞.
nQn (z/n)
3.3.2 G 関数,Q 関数
離散分布,離散関数は扱い難いので pn に対応する次の関数を考える.
pn (t) =
fn (t) =
c
X
i=1
c
X
pin I[i − 1 ≤ t < i],
0 < t < c,
npin I[(i − 1)/n ≤ t < i/n] = npn (nt),
0 < t < c/n.
i=1
pn (t) は pn をヒストグラム型確率密度に対応させたものであり,fn (t) はその尺度パラメータ
を 1/n にしたものである.
連続な確率密度関数 f にたいする G 関数,Q 関数を (3.8) に対応して
Z
Z
(3.9)
Gf (z) =
I[f (t) > z]dt, Qf (z) =
I[f (t) ≤ z]f (t)dt,
277
孤立個体数の推測
とする.f が減少関数ならば Gf も減少関数で互に逆関数である.このとき zGf (z) ≤ 1 であ
る.またこのとき Qf は f の生存関数を z に変数変換したものである.両者の間には
Z z
Qf (z) = −
xGf (dx)
0
の関係がある.
以上を使うと pn の G 関数,Q 関数 (3.8) を
Gfn (z) = n−1 Gpn (z/n),
Gpn (z) = Gn (z),
Qfn (z) = Qn (z/n),
と表わせる.これらを用いて
(c.1),
(c.2)の例を構成できる.
例 1.Z1 , . . . , Zn を pdf f をもつ iid 確率変数列
Z i/c
pin =
f (t)dt, fn (t) = cpin (i − 1)/c ≤ t < 2/c, 1 ≤ i ≤ c,
(i−1)/c
とすると,c(n) → ∞ のとき fn (t) → f (t) a.e. したがって c = c(n) → ∞ のとき,Gfn は Gf に
Qfn は Qf に弱収束する.α を正定数,c(n) = αn とすると Qn (z/n) = Qfn (αz), となり
(c.1)
が満たされる.
例 2.p が減少関数とすると p = G−1
である.Z1 , . . . , Zn を p からの iid 確率変数列,
p
Z i
n
X
pin = pi =
p(t)dt, Xin =
I[i − 1 ≤ Zj < i]
i−1
j=1
とすると,任意に固定した p にたいして (X1n , . . . , Xnn ) は
(d.1)を満足しない.
例 3.
(c.3)
p(t) = t−γ L(t), 0 < γ ≤ 1,
L(tc)/L(t) → 1, t → ∞, ∀c > 0,
とする.つまり L(t) は slowly varying である.pi , Xi,n を例 1 と同じように定義すると(d.2)
を満たす.
3.3.3 収束定理
最後に確率標本にたいする G 関数,Q 関数を定義する.
p̂n (t) =
c
X
n−1 Xin I[i − 1 ≤ t < i],
fˆn (t) =
c
X
i=1
Xin I[(i − 1)/n ≤ t < i/n].
i=1
これらは単にヒストグラムである.これに対応して,
(3.10)
Gfˆn (z) = n−1
c
X
I[Xin > z],
Qfˆn (t) = n−1
i=1
c
X
Xin I[Xin ≤ z],
i=1
とする.G 関数は度数 z 以上の出現度数の割合,Q 関数は Qpn に対応する,度数 z 以下のカ
テゴリーの経験分布関数である.次の事実が重要である.
命題 3.8. 次の条件は
(c.1)(
,d.1)と同等である.
(c.4)
lim inf p̂n − pn > 0.
n→∞
278
統計数理 第 51 巻 第 2 号 2003
つまり LNRE では相対度数が非一致推定量である.
しかし Qfn が Qf に弱収束するならば Gfˆn は
Z ∞
Z ∞
C(z) :=
Λ(z, x)x−1 Qf (dx) = −
Λ(z, x)Gf (dx),
0
Λ(z, x) =
0
X
e−z xk /k!,
k>z
に一様に確率収束する.この命題の示すことは,もしも
E(µn (z))
1
E(Ĝfn (z))
1
=
,
= ⇔
z
E(µn )
z(z + 1)
E(Ĝfn (0+))
のような正則性が成り立っていても,pn , fn についての対応する正則性
Gfn (z)/Gfn (0+) ≈ 1/z,
などは成り立たない.
上記の収束条件を書き直すと次の命題が得られる.
命題 3.9. E(µn ) → ∞ とし
Z
∞
Ln (z) := Gn (z/n)
0
が
Z
lim sup
(1 − e−z ) dGn (z/n),
ε
z dLn (z) = 0,
0
ε→0
を満たすとすると
E(µn (m))
1
→
E(µn )
m(m + 1)
⇔
d
Ln (z) →
Z
∞
0
e−zx
dx.
1+x
例 4.任意の ε > 0 にたいして ziε ,1 ≤ i ≤ cε を
ε
L(ziε ) − L(zi−1
) = ε, 1 < i ≤ cε ;
(
)
c
X
ε
cε = min c :
(1 − e−zi ) ≥ 1/ε
L(z1ε ) = ε,
i=1
を満たすように定める.i の上限 nε を固定し,ziε を正規化し,pin を求める.
3.4 種々の推測問題
本論文で議論している “母集団と標本で孤立している個体の数”以外にも,関連する多様性統
計学の “種々の”課題があり,同様に困難である.この小節で短く触れておく.
まず母集団カテゴリー数の推定である.観測を続けると新しいカテゴリーが現われる.その
総数が有限として,標本寸法指標から母集団カテゴリー数を推定したい.シェイクスピア全作
品の corpus から “シェイクスピアは単語をいくつ知っていたか”を推定する.計算言語のプロ
グラムでは一定期間にバグを発見した後で,“未だ何個残っているか”を推定する.
調査データでは諸属性のカテゴリーが定まっており,組合せ数も分かってはいるものの,そ
の中に論理的,経験的にあり得ない,組合せが生ずる.既婚の少年少女や,老人の出産などで
279
孤立個体数の推測
表 3.
dependent,
P
j
基本モデルの分類.
Xj = n.
independent, n: mean of sum
multivariate hypergeometric
MvHg(c, n, M ), X ∈
Y
N Mj
j
absolute
ξj = Mj /M, M =
Mj .
j=1
multinomial
Mn(c, n, ‰), X ∈ ∆(c, n)
E[Xj ] = n ξj .
relative
Bn(Mj , p), X ∈
j=1
E[Xj ] = n Mj /M =: n ξj ,
c
X
independent binomial
c
Y
Y
N Mj
j
E[Xj ] = Mj p =: n ξj , n = pM,
ξj = Mj /M, M =
c
X
Mj .
j=1
independent Poisson
c
Y
c
Po(λj ), X ∈ N∞
j=1
E[Xj ] = λj =: n ξj ,
n=
c
X
λj ,
ξj = λj /n.
j=1
c categories: c ≤ ∞, Nk = {0, 1, . . . , k}; ∆(c, n): lattice simplex.
ある.これらは “構造的零 structural zero” と呼ばれている.何が構造的零か曖昧な組み合わせ
もあるために,セル数の上限が既知だとしても,実際の数は未知で推定することになる.
しかしカテゴリー数が有限であることと非常に小さな確率が存在することは区別できない.
有限が明確なときに推定すべきである.
上限が不確定であれば,むしろ未観測カテゴリーの母集団での割合に意味がある.生態学の
種の多様性研究における一つの課題である.その変形として,観測数をさらに増やしたときに
新しいカテゴリーがどれだけ増えるか,予測する課題がある.
以上の課題の推測法,その他の課題については Bunge and Fitzpatrick(1993)参照.
4.
4.1
事前分布の導入
モデルの分類と事前分布の役割
4.1.1 モデルの分類
問題が本質的に困難であり,素朴な推定法がよく働かないときに利用されているのは経験ベ
イズ法である.ここの文脈では超母集団 super population を仮定し,母集団をそこからの標本
とみなす.事前分布を導入する前に,第 1 章で議論した基本モデルを表 3 のように整理して
おく.
行方向 2 分類の絶対モデルでは,母集団からサンプリングにより標本を得る.相対モデルは
超母集団を想定しており,n が母集団のサイズか,標本のサイズかの違いとなる.より正しく
は,標本のサイズと,標本に含まれない母集団のサイズの違いで,標本から他の標本を予測す
ることになる.“absolute abundance”,“relative abundance” は Engen(1978)の用語である.
列方向はサンプリング法の違いでもある.母集団リストから予め定めた大きさの標本をとる
か,ランダムに選んだ小集団全部を観測するかによる.
4 種のモデルでは分布範囲が異なるが,c, n → ∞ のとき漸近的に同等であり,独立ポアソン
分布で代表することができる.
基本モデルのそれぞれにたいする,経験ベイズアプローチが提案されている.ただしこれ
280
統計数理 第 51 巻 第 2 号 2003
らを確率過程としてみることにより,さらに視野が広がる.離散的な壺のモデル,連続的な
Lévy 過程,単位区間を分割する residual allocation model(RAM)
などがあるが,ここでは議論
しない.
4.1.2 事前分布
4 種のモデルのそれぞれにたいする事前分布を考える.
1. absolute and dependent
M = n ‰ の従属多変量同時分布でなければ固有の事前分布とはならない.ひとつのアプロー
チがカテゴリーを一項目とせず,他項目の組合わせとする方法である.それが S = (s1 , s2 , . . . )
の分布に及ぼす影響は明らかでない.
2. relative and dependent
上の GEM 分布,2 パラメータ GEM 分布に従うならば
‰ (c = ∞) が ∆(無限次元単位単体)
Ewens 確率分割,Pitman 確率分割となる.Ewens-Pitman 確率分割では「母集団」全体からの
非復元抽出による標本の確率分割は n の違いだけとなる.
‰ (c < ∞) が Dirichlet 分布 Dir (c, ¸) に従うならば X は多変量負の超幾何分布 MvNgHg
(c, n, ¸) に従う.対称 Dirichlet 分布 Dir (γ1) に従うならば Pitman 確率分割 (θ = cγ, α =
−γ < 0) となる.θ を固定し γ → 0, c → ∞ とすれば Ewens 確率分割となる.
注意.多変量負の超幾何分布 MvNgHg (c, n, ¸) ∼ X から,ν 個の個体を非復元抽出した標
本は MvNgHg (c, ν, ¸) ∼ Y である.X − Y |Y = y ∼ MvNgHg (c, n − ν, ¸ + y) となり,両部
分は独立ではない.
3. absolute and independent
現存の人間をランダムに分割するのではなく,過去に運命づけられた人間がランダムに生ま
れたと見ることに相当する.
命題 4.1. (Mj )cj=1 が iid その pmf(probability mass function = pf)
を pM (x) = pM (x; θ), x =
P
0, 1, . . . , とする.(Mj )cj=1 の 寸法指標を (T1 , T2 , . . . ) とする.E(Mj ) = m(θ) = ∞
x=0 xpM (x; θ)
→ 0 (θ → 0) となるようにパラメータ θ を持つ確率分布族を選び,c を cpM (x; θ(c)) → λ(x) (c →
∞, θ → 0) を満たすように選べば
d
(T1 , . . . , Tl ) →
l
Y
Po(λ(i)),
c → ∞.
i=1
証明.Tk の周辺分布は
Tk ∼ Bn(c, pM (k)),
k = 0, 1, . . . ,
であり,同時分布は “サイズをカテゴリーとする無限多項分布”で,
(4.1)
Pr{(T0 , T1 , . . . ) = (t0 , t1 , . . . )} = c!
∞
Y
pM (i)ti
,
ti !
i=0
∞
X
i=0
ti = c.
P
P
c
このとき T = cj=1 Mj = ∞
i=1 i Ti は確率変数で,その pgf は G (z) であり E(T ) = c E(Mj )
である.
その周辺分布は非退化多項分布である: (T1 , . . . , Tl ) ∼ Mn (l, c; (pM (1), . . . , pM (l))). その pgf は
P
a.s.
(1 + li=1 pM (i)(zi − 1))c である.したがって (T1 /c, . . . , Tl /c) −→ (pM (1), . . . , pM (l)),c → ∞.
また各 Ti をポアソン近似できる.2
281
孤立個体数の推測
命題 4.1 は母集団分布が超母集団からの標本であるとみなしている.母集団 (Mj )cj=1 から
の標本 (Xj )cj=1 の大きさは Xj ∼ Bn(Mj , p)(p は抽出率)つまり
!
∞
X
i x
P {Xj = x} =
pM (i)
p (1 − p)i−x .
x
i=x
したがって (Xi )ci=1 の寸法指標 (S1 , S2 , . . . ) の分布は,一般に (T1 , T2 , . . . ) の分布と同じでは
ない.
4. relative and independent
ポアソン分布パラメータ λj の事前分布として以下のものを想定する.‰ ∈ ∆ にたいして
P{Z = ξj } = ξj , j = 1, 2, . . . , という “characteristic random variable” Z = Z‰ を想定し,その
確率分布を事前分布とする.母集団比率 (Zj )cj=1 の,ξj の相対度数を,ξˆj とする.標本比率の
d
a.s.
分布は P {Xj = ξj } = ξˆj であり,ξˆj −→ ξj (c → ∞) より,X → Z(c → ∞). 応用よりは理論的
な興味であるが,母集団と標本が同じ分布であることに意味がある.
P
Xj ∼ Po (ληj ), j = 1, . . . , c, j ηj = 1 が独立,λ もこれらと独立で,λ ∼ Ga (γ, a) ならば,
X ∼ NgMn (γ, ‰), ‰ = ((1 + a)−1 , a(1 + a)−1 ”). 一般に独立な確率変数が mixing により従属と
なる.
n ξj が Gamma 分布など無限分解可能連続確率分布に従う必要十分条件は,abs. ind. nξj が
無限分解可能離散確率分布に従うことである.
注意と議論.ポアソン・モデル
(rel. ind.)
では母集団と標本の区別が n の違いであるが,被混合
分布 mixture では一般に両分布は違う.負の 2 項分布であっても X ∼ NgBn(ξ, k), Y ∼ Bn(X, ρ)
ならば
Y ∼ NgBn(ξ/(1 − (1 − ξ)(1 − ρ)), k),
E(Y ) = ρE(X),
X − Y |Y = y ∼ NgBn(1 − (1 − ξ)(1 − ρ), k + y)
である.標本と残りは独立でないし,パラメータの変化も注意を要する.X ∼ Po(v) のとき,
v が確率変数で v ∼ Ga(k, α) であることを表わす Gurland の記号を用いると,
^
Po (v)
Ga (k, a) ∼ NgBn (1/(1 + a), k),
v
だから,ξ = 1/(1 + a) を 1/(1 + ρa) = ξ/(ξ + (1 − ξ)ρ) に変えることになる.
負の多項分布からの 2 項サンプリングでも平行した議論となる.
もっとも考えやすいのは,c 個の独立なポアソン過程の混合において,あい交わらない時間間
隔での観察で,標本と,標本から残された母集団を想定することである.このモデルは,rel.dep.
において n が確率変数で,標本が Po (ρM ) 母集団の残りが Po ((1 − ρ)M ) であることに相当
する.
カテゴリーの確率に事前分布を導入することにより,カテゴリーが消滅して,寸法指標の議
論は,離散確率変数の標本度数の順序統計量の議論に帰着することを命題 4.1 で見た.ポアソ
ン・モデルに事前分布を導入すると,より多様なモデルとなる.緩やかな条件の下で,寸法指
標について次の命題が成り立つ.
282
統計数理 第 51 巻 第 2 号 2003
命題 4.2. 非負整数値をとる pmf f (x), x = 0, 1, . . . , からの確率標本を X = (X1 , . . . , Xc ) と
P
し,その寸法指標を S = (S0 , S1 , . . . ), Sν = ck=1 I[Xk = ν] とする.X の同時 pmf
X∼
c
Y
f (xk ),
k=1
を変形すれば,S の同時 pmf は,
S ∼ c!
∞
Y
(f (ν))sν /sν !,
ν=1
X
sν = c,
ν
X
νsν =
X
ν
S の同時階乗キュミュラントは,
! 8 Q
P
rν
<cr
Y rν
ν (f (ν)) , r =
ν ≤ c,
E
Sν
=
:0, r > c,
xk .
k
→
Q
ν (cf (ν))
rν
, c → ∞.
ν
つまり寸法指標 Sν , ν = 0, 1, . . . を平均 cf (ν) の独立なポアソン分布で近似できる.
4.2 無限分解可能離散分布の役割
R. A. Fisher はマレーシアの蝶の種類を議論し対数級数分布を導入した.それはポアソン分
布の強度パラメータがガンマ分布に従うことを仮定し,負の 2 項分布を導く.さらに零を打
切り,ガンマ分布の尺度母数を零に近づけることにより対数級数分布を導いた.Fisher et al.
(1943)を参照.混合する分布を変える試みの結果,それが無限分解可能確率母関数をもつと扱
いやすいことが分かった.
それは,上記の rel.ind. の場合に述べたように混合する分布が無限分解であれば混合された
ポアソン分布(Poisson mixtures)およびその極限も無限分解可能となる.さらに次の命題で表
わされる分布,確率母関数,に限ることにより議論が容易となる.
非負整数値をとる rv X の pgf を G(z) = E(z X ) と
命題 4.3. (Steutel and van Harn(1979))
し,P {X = 0} = G(0) > 0 を仮定する.G(z) が無限分解可能な pgf である必要十分条件は
G(z) = G(z; θ) = exp(θ(g(z) − 1)), θ > 0
と表わせることである.g(z) も pgf であり,g(0) = 0 と制約すれば一意に定まる.
(下記の注意
参照)
つまり pgf が g(z) である rv をクラスターの大きさ(cluster size)とするポアソン中断和
(stopped sum)として表わされる.
P
k
注意.一般に pgf G(z) = exp(θ(g(z) − 1)), Z ∼ g(z) = ∞
k=0 pk z において P {Z = 0} =
p0 = g(0) = 0 と仮定して一般性を失わない.実際
!!
∞
X
k
G(z) = exp θ
pk z − (1 − p0 )
= exp((1 − p0 )θ(g ∗ (z) − 1)),
k=1
g ∗ (z) = (1 − p0 )−1
∞
X
k=1
pk z k ,
283
孤立個体数の推測
で g ∗ (z) は Z|Z > 0 の pgf である.逆に G(z) = exp(θ(g(z) − 1)), g(z) =
任意の ρ(0 < ρ < 1) にたいして,
G(z) = exp(ρ−1 θ(g ∗ (z) − 1)),
∞
X
g ∗ (z) =
P∞
k=1
pk z k のときに,
p∗k z k , p∗0 = 1 − ρ, p∗k = ρpk , k > 0,
k=0
と表現できる.つまり θ の変化は p0 に影響し (pk , k > 0) の相対的な大きさに影響しない.
命題 4.4. g(0) = p0 = 0 のとき,
G(z; θ) − G(0; θ)
→ g(z)
1 − G(0; θ)
(4.2)
(θ → 0).
証明.一般に pgf G(z) の 0 打切り分布 の pgf は (G(z) − G(0))/(1 − G(0)) である.ポアソ
ン分布 Po (θ) の 0 打切り分布 ZtPo (θ) は θ → 0 のとき値が 1 の分布に分布収束する.ポア
ソン中断和では,クラスター 1 個の場合,つまりクラスター分布そのものとなる.
命題 4.5.
X ∼ G(z) = exp(θ(g(z) − 1)),
g(z) =
∞
X
pk z k ,
k=1
とすると
P {X = x} = e−θ
(4.3)
ただし
P
X
θt
x
Y
psi i
,
si !
i=1
t=
x
X
si ,
i=1
P
は, xi=1 isi = x を満たす,x のすべての分割 (s1 , . . . , sx ) に関する和である.
証明.P {X = x} は G(z) を展開したときの z x の係数である.
補題.
Yn ∼ g n (z), g(z) =
∞
X
pk z k ,
k=0
とすると
P {Yn = y} = n!
y
XY
psi i /si !,
i=0
Py
ただし和は i=1 isi = y,
si = n,を満たすすべての分割 (s0 , s1 , . . . , sy ) に渡る.g(0) =
Py i=0
s
p0 = 0 のときは s0 = 0,
i=1 i = n に限られる.
Py
証明.P {Yn = y} は g n (z) を展開したときの z y の係数であるが,y より高次の項は関係し
ないから,多項展開の項を整理して,
!n
y
y
ny
y
k
X
X
X Y
X Y
pn
1
k
k
(pk z k )nk = n!
.
pk z
= n!
zw
nk !
nk !
P
P
w=0
k=0
k=0
k=0
nk =n
p0 = 0 ならば p0 のべき乗の項が消える.
P nk =n
knk =w
284
統計数理 第 51 巻 第 2 号 2003
命題 4.5 の証明.補題において n が平均 θ のポアソン分布に従う確率変数 N ならば,
P {X = x} = P {YN = x} = e−θ
∞
X
θn
n=0
x
X Y
psi i
.
si !
P
i=1
P si =n
isi =x
二つの和を合わせれば (4.3) が得られる.
注意.命題の意味について後で議論する.命題で,p0 > 0 の項を含めても,結果は変わらな
い.また,上記の証明は,
P {X = k} = (1 / k!) (d / dz)k G(z)|z=0
であることに注意して,合成関数の高階微分を求める次のファ・ディ・ブルノの公式を用いる
ことと同じである.
«s
„
ν
ν
Y
X
X dk
˛
dν
1
1 di g(z) i
˛
f
(g(z))
=
ν!
f
(y)
,
k
=
si ,
y=g(z)
dz ν
dy k
si ! i! dz i
i=1
i=1
P
P
ただし
は, νi=1 isi = ν を満たす,すべての (s1 , . . . , sν ) に関する和である.
この節の議論をまとめる.命題 4.2 で,事前分布を導入したとき寸法指標のポアソン近似に
ついて述べた.ところが混合されたポアソン分布は,少数の例を除くと複雑な形となり,応用
を妨げている.
ところで命題 4.5 において,X = (X1 , . . . , Xc ) が pgf G(Z; θ) = exp(θ(g(z)−1)) の確率標本であ
P
れば Zc := ck=1 Xk ∼ G(z; cθ) であり,その pmf が (4.3) の形となる.これは Zc = z の条件のも
P
P
とで z の確率的分割を示している.X の寸法指標 S = (S1 , . . . , Sz ), zν=1 νSν = z, zν=1 Sν = c
Pz
とし,命題 4.2 と比較すると, ν=1 νSν = z の条件の下で,S は g(z) からの確率標本の寸
法指数となっている.したがって次の命題が成り立つ.精確な近似評価を求めることが必要で
ある.
命題 4.6.
(Xi )∞
i=1
iid
Xi ∼ G(λ(g(z; θ) − 1)), g(z; θ) =
∞
X
pk (zθ)k ,
k=0
m(θ) =
∞
X
kpk θk ,
θ < θ0 ,
θ0 = sup{θ : m(θ) < ∞},
k=1
とする.(X1 , . . . , Xc ) の寸法指標を
Sc,ν =
c
X
I[Xi = ν]
i=1
と記す.任意の正整数 l にたいして
d
(Sc,1 , . . . , Sc,l ) →
l
Y
j=1
Po (mpj ),
m = cm(θ), c → ∞, θ → 0.
285
孤立個体数の推測
4.3 新しい研究方向
これまでどのような研究が行われてきたかを概観した.いずれの方法も完全ではないが,有
望な方向を示している.本特集号の諸論文が現在の新しい研究,特に具体的な推測の方法を
扱っている.
付録の一般 Zipf 分布の多くは壺に玉を入れる過程として導ける.これらと別に集団遺伝学
で発展した確率分割の議論がある.Ewens と Pitman による確率分割の族は基礎概念で,確率
過程論といろいろ結び付いている.Zipf 法則の新しい代表である.
モデルに関する仮定をなるべく少なくし,セミパラメトリックなモデルにより推測できれば
非常に都合がよい.応用統計学としては標本の大きさが非常に大きい例であるが,推測精度の
議論が単純ではない.
この節で議論したベイズ法は諸困難を回避している.観測データ類別による標本寸法指標に
ついて事前分布を想定する意味が明確でない.しかも任意のクラスター分布を考えられるので,
モデルの自由性は基本モデルの自由性とあまり変わらない.LNRE 理論は期待値についての法
則である.この結果から見ると,経験ベイズの尤度の意味も問い直すことになる.
一方 Karlin の定理は,条件が限定されているものの明確な強い定理である.当然 1 パラメー
タ分布族では実際データに当てはまらないから,その変形として一般 Zipf 分布族を利用する
ことも考えられる.
当面はこれらの方途 (approach) の間の相互関係の探求が必要であろう.
4.3.1 無限分解可能分布に基づくモデル
以下ポアソン過程のベイズ法を議論する.Gurland の記号法で形式化すると,
^
mixture : Poisson(λ) F (ξ) F : infinitely divisible
λ
stopped sum :
Poisson(λ)
_
F (η)
F : positive integer r.v.
このスキームで混合する分布,混合結果の分布が陽に表わせるものを探すと,表 4 のように
なる.混合する分布としては他に多くの提案がされているが,一般にその結果が複雑になり利
用しにくい.離散安定分布,離散 Linnik 分布,KRS については付録 KRS 分布を参照.
表 4 の中の 2 つの分布を調べる.
1. Neyman の A 型分布
次の 3 つのモデルが同等である.ただし Zt は零打切りを表わす.
Po (φj)
^
G(z) = exp(λ(exp(φ(z − 1)) − 1)).
_
_
Po (λ), Po (λ)
Po (φ), Po (λ(1 − e−φ ))
ZtPo (φ).
j
表 4.
Mixture-Generalized
Negative Binomial
Neymann Type A
Hermite
PIG
Discrete stable
Discrete Linnik
陽な混合ポアソン分布.
Mixing
Gamma
Poisson
Inverse Gauss
Gamma*Stable
Stable
Summed
Logarithmic series
Poisson
shifted-binomial
0-Trunc. neg. binom.
KRS
KRS
286
統計数理 第 51 巻 第 2 号 2003
∞
x
exp(−λ(1 − e−φ ))φx X
e−λ φx X (λe−φ )j j x
=
p(x) =
x! j=0
j!
x!
k=1
p(0) = exp(−λ(1 − e
ただし
˘x ¯
−φ
( )
x
(λe−φ )k ,
k
)).
は第 2 種スターリング数である.
k
2. 離散安定分布(5.2.3 節参照)
P
は
_
G(z) = exp(−λ(1 − z)γ ). Po (λ)
KRS (γ),
!
!
!
∞
x X
m
X
X
γj (−λ)j
m
γj λm
x
x −λ
p(x) = (−1)
= (−1) e
j!
x
j
x m!
m=0 j=0
j=0
!
s
i
x
x
X k Y
X
1
γ(1 − γ)i
λ
, k=
si ,
= e−λ
si !
i!
i=1
i=1
Px
i=1
isi = x を満たす分割についての和である.最後の式は (4.3) 式による.
3. Zipf 法則へのアプローチ
Zipf 法則を導く種々の方法を第 3 章で紹介したが,いずれも複雑で統計モデルの構築には適
さない.もうひとつのアプロ−チとして,ポアソン分布の混合により,寸法指数が Zipf 法則
に近いものを探したい.しかし特殊な例を除くと,混合された分布の陽な表現を得られず,混
合分布を選び出すことが難しい.
発想を変えて混合分布でなく,クラスター分布を想定すれば扱いはやさしくなることを,命
題 4.2,4.4 が示している.たとえばクラスター分布として一般 Zipf 分布を選ぶことが考えら
れる.このときのポアソン中断和がどうなるか,最も簡単な Zipf 分布で調べる.一般 Zipf 分
布を選びパラメータ推測を行うことは別稿で議論する.
なお査読者から Zipf 分布をシフトした p0 (1 + x),x = 0, 1, 2, . . . が無限分解可能であること
を示す,あるいは否定する問題を提示されたが,未解決である.
Zipf 分布
p0 (x) = 1/x(x + 1),
x = 1, 2, . . .
の確率母関数は
G0 (z) = 1 − (1 − z −1 ) log(1 − z),
これをクラスター分布とする無限分解可能分布の確率母関数は
G(z; λ) = exp(λ(G0 (z) − 1)) = exp λ
∞
X
k=1
!!
zk
−1
= (1 − z)−λ(1−1/z)
k(k + 1)
である.これを展開すると,
„
„
«
«
λ
λ
λ2
λ2
λ3
λ
2
G(z; λ) = e
+
z +
+
+
z3
1+ z+
2
6
8
12
12
48
«
«
„
„
«
λ2
λ3
7λ2
5λ3
λ
λ
+
+
z4 +
+
+
z5 + · · · ,
+
20
18
48
30
180
288
«
„
7 2
9 3
91 4
129 5
1
−1
z +
z +
z +
z +··· .
G(z; 1) = e
1+ z+
2
24
48
720
1440
−λ
„
287
孤立個体数の推測
G(z, λ), λ → 0, を考えると,z k の係数である λ の多項式で 1 次項が支配的であり,その係数
は 1/k(k + 1) となることに注意せよ.
4.3.2 多数希少現象との関係
P∞
数の可算順合 – = {λi }∞
i=1 , λi ≥ 0, λ =
i=1 λi ≤ ∞ にたいして系列
— = (µj )∞
j=0 ,
(4.4)
µj = µj (–) :=
∞
X
e−λi λji / j!,
i=1
を定める.変換 – → — が多数希少現象 LNRE の主要課題である.特に – = np,pj ≥ 0,
P∞
j=1 pj = 1 の場合に,パラメータ n にたいする —(np),n → ∞,の挙動を議論する.
(λi )L
(経験分布関数)を QL (λ) とすると,
i=1 を等確率でとる確率分布の分布関数
Z ∞“
”
e−λ λj / j! dQL (λ), j = 0, 1, . . .
µj / L =
0
−1
であり L
— は,成分の順序を適当に変えれば,ポアソン混合分布 Po(λ)
V
QL の確率関数で
ν
ある.
QL を連続確率分布で近似し
(事前分布),さらに無限分解可能分布で近似すればポアソン中
断和モデルで表わされる.無限分解可能の節の初めで注意したように,ポアソン強度パラメー
タの変化はクラスター要素数 0 の確率に影響するだけで,(µ1 , µ2 , . . . ) の相対的な大きさには
影響しない.したがって寸法指標の期待値を問題にする限り,LNRE の一般理論はポアソン中
断和の導入により一段落し,そこから新しい課題が始まる.
4.3.3
Pitman 確率分割と関連する分布
1. 一様多変量負の超幾何分布と Pitman 確率分割
多変量負の超幾何分布 MvNgHg (m, n; )
(4.5)
p(x) =
xj
m
n! Y νj
,
ν n j=1 xj !
ν=
m
X
νj
j=1
において ν1 = · · · = νm = γ とすると,
p(x) =
m
n! Y γ(1 + γ) · · · (xj − 1 + γ)
,
(mγ)n j=1
xj !
(x1 , . . . , xn ) の寸法指標を (s0 , . . . , sn ) とすると,
(4.6)
«s
n „
Y
γ(1 + γ) · · · (i − 1 + γ) i
m!
n! X
Q
n
(mγ)n
i!
i=0 si ! i=1
!
s
i
n
n
X
1
n!γ k mk Y (1 + γ)i−1
si = m − s0 .
=
, k=
n
(mγ) i=1
i!
si !
i=1
p(s1 , . . . , sn ) =
一方,Pitman の確率分割
n
n!θ(θ + α) · · · (θ + (k − 1)α) Y
p(s1 , . . . , sm ) =
θn
i=1
(1 − α)i−1
i!
で −α = γ > 0, θ = mγ, m = 1, 2, . . . とすると
n
n!γ k mk Y
p(s1 , . . . , sn ) =
(mγ)n i=1
(1 + γ)i−1
i!
!si
!si
1
si !
1
,
si !
k=
n
X
i=1
si ,
288
統計数理 第 51 巻 第 2 号 2003
となり,両者は一致する.
多変量負の超幾何分布は,多項分布の Dirichlet 分布による混合として,あるいは負の 2 項
確率変数の和を与えたときの条件付分布として得られる.
(4.6)で γ = −α < 0 とすると Pitman
確率分割が得られそうに見えるが,それほど簡単ではない.
2. 和の条件付分布
P
Pitman 確率分割で n を任意に固定したとき n
i=1 Si = k の条件の下での (S1 , . . . , Sn ) の同
時確率関数は
!si
n
n
n
Y
X
X
n!
1
α(1 − α)i−1
isi = n,
si = k,
,
c(n, k, α) i=1
i!
si !
i=1
i=1
である.ただし c(n, k, α) は t の恒等多項式
(tα)n =
n
X
c(n, k, α)tk
k=1
で定義される α の多項式である.これは k を任意に固定し,
(Y1 , . . . , Yk )
Pk
iid
Y1 ∼ KRS(α)
の j=1 Yj = n の条件の下での寸法指標 (S1 , . . . , Sn ) の同時確率関数に等しい.条件の与え方
が違うことに注意.
より一般的には Engen’s generalized negative binomial に従う確率変数の,和(十分統計量)
が与えられた条件の下での分布でもある.
P
ちなみに KRS 変数の和 kj=1 Yj の pgf は次のようになる.
!
!
k
∞
X
X
αj
k
α k
ν
j k
G (z) = (1 − (1 − z) ) =
(−z)
(−1)
(4.7)
j
ν
ν=0
j=0
!
∞
k
X
α X k
(−1)i−1 z i (1 − iα)ν−1 .
=
ν!
i
i=1
ν=k
5.
付録
5.1 一般 Zipf 分布
Zipf 法則の定式化は多様であるが,典型的な発想は,中心極限定理のような一般的法則があ
り,その極限分布として得られる,というものである.一般的法則はともかく,極限分布の候
補となるものを模索する仕事が行われている.その中にグルジア共和国の首都トビリシの人々
の成果がある.本文の LNRE の理論もこれらと結び付いている.
Zipf 法則に関連して提案されてきた諸確率分布が,次の確率関数により統一的に表わされる.
Orlov and Chitashvili(1983a,1983b),Baayen(2001)を参照.
ffiZ ∞
Z ∞
(ln(1 + t))γ−1 tα
(ln(1 + t))γ−1 tα−1
(5.1)
p(x; α, β, γ) =
dt
dt,
x+β+1
(1 + t)
(1 + t)β+1
0
0
x = 1, 2, . . . ; α, β, γ > 0.
P∞
これが確率分布であることは x=1 1 / (1 + t)x = 1 / t から確かめられる.明らかに x の減少関
数である.次の特別の場合には陽に表わすことができる.
p(x) =p(x; α, β, 1) =
α(β − α + 1)x−1
αΓ(β − α + x) Γ(β + 1)
=
Γ(β − α + 1) Γ(β + 1 + x)
(β + 1)x
289
孤立個体数の推測
=
(β − α + 1)x−1
(β − α + 1)x
−
,
x−1
(β + 1)x
(β + 1)
x = 1, 2, . . . ,
1 + β > α > 0.
これを Waring-Herdan-Muller 分布と呼ぶ.この分布の確率母関数は
G(z) = (z − 1) 2 F1 (β − α + 1, 1; β + 1; z) − 1,
と表わせる.さらにこの 2 パラメータ分布族は,特別な場合として次の諸分布のうちの 4 種を
含んでいる.
(1, 1, 1)
(α, α, 1)
(1, β, 1)
(α, 0, 1)
(1, 1, γ)
Zipf 分布
Yule 分布
Yule-Simon 分布
Karlin-Rouault-Sibuya 分布
Zipf-Mandelbrot 分布
p(x) = 1 / x(x + 1),
p(x) = α(x − 1)! / (α + 1)x ,
p(x) = β / ((β + x − 1)(β + x)),
p(x) = α(1 − α)x / x!,
p(x) = 1 / xγ − 1 / (x + 1)γ .
Waring-Herdan-Muller 分布,およびこれに含まれる 4 種類の分布は
p(x + 1) p(x − 1) − p2 (x) ≥ 0,
x = 2, 3, . . .
という意味で対数凸であり,したがって凸である.Zipf-Mandelbrot 分布は,対数凸ではない
が凸である.p(x; α, β, 1), x = 1, 2, . . . , をずらした y = x − 1 = 0, 1, 2, . . . の pmf は
p(y) =
Γ(α + 1)Γ(β + 1)Γ(β − α + 1 + y)Γ(1 + y)
Γ(α)Γ(β − α + 1)Γ(β + 2 + y)y!
であるが,これは一般超幾何分布 B3 型 GHgB3(ベータ負の二項分布)
q(y) =
Γ(a + c)Γ(b + c)Γ(a + y)Γ(b + y)
,
Γ(a)Γ(b)Γ(c)Γ(a + b + c + y)y!
y = 0, 1, . . . ; a, b, c > 0,
で a = 1, b = β − α + 1, c = α の場合である.q(y) については Sibuya(1979),Sibuya and
Shimizu(1981)を参照.
また p(x; α, β, 1) は幾何分布 (1 − u)ux−1 , x = 1, 2, . . . , で u がベータ分布 Be(β − α + 1, α)
に従うときの混合分布である.
5.2 Karlin-Rouault-Sibuya 分布
Karlin-Rouault-Sibuya 分布は,本稿に関連する 3 つの分野で独立に現われる.事前分布を導
入するモデルでも利用できそうである.これらの分野で現われることの本質ははっきりしてい
ない.ここではいくつかの特徴を記しておく.
5.2.1 分布の定義
KRS(α) により次の正整数上の分布を表わす.
!
α(1 − α)x−1
x+1 α
= (−1)
p(x) =
,
x!
x
(5.2)
(5.3)
X
p(y) =
y>x
pgf
(1 − α)x
,
x!
P
x = 1, 2, . . . ; α ∈ (0, 1].
p(x)
α
= ,
p(y)
x
y≥x
G(z) = 1 − (1 − z)α ,
E(X) = ∞ unless α = 1.
G(z) = (z − 1) 2 F1 (1 − α, 1; 1; z) − 1 とも表わせる.
KRS(1) の場合は, p(1) = 1, p(x) = 0, x > 1.
290
統計数理 第 51 巻 第 2 号 2003
(5.2) は次のように表現することができる.
p(x) = π −1 sin(απ) B(α + 1, x − α) = π −1 Γ(α + 1) sin(απ) x−α−1 + O(x−α−2 ).
KRS(1/2) は,
(5.4)
!
1
(2x − 3)!!
2x −2x
p(x) =
=
= 2Cx−1 2−2x ,
2
2x − 1 x
x!2x
x = 1, 2, . . . ;
(−1)!! = 1,
Cx は Catalan 数.
これは原点から出発し,一定間隔で左右に等確率で動く酔歩が,2x 回目に初めて原点に戻る
確率である
(random-walk distribution)
.Feller(1968),Chapter 3 参照.Catalan 数についての
詳しい説明は Stanley(2001)参照.
Devroye(1993)は “Sibuya distribution” の名前を提唱し,乱数の生成を目的に,3 種の離散
分布
(離散安定分布,離散 Linnik 分布,Sibuya 分布)
の関連を “triptych(三枚絵)” の表題で議
論した.第 5.2.3 節参照.
5.2.2 分布の生成
1. ベルヌーイ試行列で k 回目の成功確率が α/k のとき k = 1, 2, . . . ,x 回目に初めて成功す
る確率が KRS(α) である.(5.3) のハザード関数参照.
2.
p(x) =
Γ(c − a)Γ(c − b) Γ(x + a)Γ(x + b)
,
Γ(c − a − b)Γ(a)Γ(b) Γ(x + c)Γ(x + 1)
を一般超幾何分布と呼び F (a, b; c) で表わす.特に F (α, β; α + β + γ), α, β, γ > 0, を B3 型
一般超幾何関数
(ベーター負の 2 項分布)と呼ぶ.
p(x) =
αx β x
Γ(α + γ)Γ(β + γ)
,
Γ(α + β + γ)Γ(γ) (α + β + γ)x x!
x = 0, 1, . . .
Y ∼ F (1, 1 − α; 2) のとき X = Y + 1 ∼ KRS(α) である Sibuya (1979).
3. digamma distribution
p(x; α, γ) =
αx
1
,
ψ(α + γ) − ψ(γ) x(α + γ)x
x = 1, 2, . . . ; α > 0, γ > 0,
において α + γ → 0 とすれば KRS(γ),Sibuya(1979).
4. Pitman 確率分割
自然数 n の順序のない Pitman 確率分割における寸法指標を S = (S1 , . . . , Sn ) とする.
«sj
n „
n!θ(θ + α) · · · (θ + (k − 1)α) Y (1 − α)[j−1]
1
,
P {S = s; θ, α} =
θ[n]
j!
s
j!
j=1
s = (s1 , . . . , sn ), sj ≥ 0, j = 1, . . . , n; k =
n
X
j=1
sj ,
n
X
jsj = n.
j=1
このとき
Sj
ffiX
∞
j=1
Sj
a.s.
−→
α(1 − α)j−1
,
j!
j = 1, 2, . . .
Pitman(1997),Yamato and Sibuya(2000).
5. カテゴリー数無限の多項分布の寸法指標に関する中心極限定理
(本文参照).
291
孤立個体数の推測
5.2.3 無限分解可能確率母関数との関係
1. 確率変数列 (Xn )∞
n=1 が独立で同一の KRS(α) に従うとし,N が幾何分布に従うとする:
P {N = k} = pq k , k = 0, 1, . . . このとき X1 + · · · + XN は確率母関数
G(z) = 1/(1 + c(1 − z)α ),
c = p−1 − 1,
α > 0,
となる.この分布を discrete Mittag-Leffler 分布と呼び DML(α, c) と書く.これは次の分布の
特別な場合である.
2. 確率変数列 (Xn )∞
n=1 が独立で同一の KRS(α) に従い,N がこれらと独立な負の二項分布
に従うとする.P {N = k} = (Γ(β + k)/Γ(β)k!)pβ q k , k = 0, 1, . . . このとき X1 + · · · + XN は確
率母関数
G(z) = 1/(1 + c(1 − z)α )β ,
c = p−1 − 1,
α > 0,
β > 0,
をもち,無限分解可能である.この分布を discrete Linnik 分布と呼び DL(α, βc, β) と書く.
DML(α, c) = DL(α, c, 1) である. c = λ/β, β → ∞ の極限は次の離散安定分布となる.
3. 確率変数列 (Xn )∞
n=1 が独立で同一の KRS(α) に従い,N がこれらと独立な平均 λ のポアソ
ン分布に従うとき X1 + X2 + · · · + XN は確率母関数 exp(−λ(1 − z)α ) = exp(λ(1 − (1 − z)α − 1))
をもつ.この分布は Steutel and van Harn(1979)の意味で離散安定分布である.上の記号法で
は DL(α, λ, ∞) である.この確率母関数は当然無限分解可能である.
γ
確率変数 Tγ がラプラス変換 E(e−sTγ ) = e−s , (s) ≥ 0, 0 < γ < 1, をもつものとする.つ
まり特性関数が
ψ(t) = exp(−(it)γ ), t > 0,
“ πγ ”
“
“ πγ ”””
“
, c = cos
,
= exp ctγ 1 + i tan
2
2
である.これから Tγ は連続な狭義安定分布である.ポアソン分布 Po(θ) の θ が確率変数で
λ1/γ Tγ と同じ分布に従うとき,混合分布が DL(γ, λ, ∞) となる.Devroye(1993),Christoph
and Schreiber(1998,2000)参照.
5.2.4 零打切り負の二項分布
負の 2 項分布 NgBn (ξ, k):
!
„
«k „
«x
Γ(k + x)
k+x−1 k
k
µ
ξ (1 − ξ)x =
,
p0 (x) =
x
Γ(k)x!
k+µ
k+µ
µ=
k(1 − ξ)
, 0 < ξ < 1, 0 < k < ∞,
ξ
の零打切り分布は
(5.5)
x = 0, 1, 2, . . . ,
ξk
p0 (x)
=
p(x) =
1 − p0 (0)
1 − ξk
!
−1
k+x−1
(1 − ξ)x =
x
1 − ξ −k
!
−k
(−1 + ξ)x
x
である.これは “Engen’s extended(truncated)
negative binomial distribution”, Engen(1978),
と呼ばれている.特に −1 < k < 0 の場合にマトモな確率分布であることを指摘したことが
extended である.そのとき ξ = 0 とすれば KRS(−k) である.
5.3
データ公有化の環境
(調査データ公有化の政治)
5.3.1 統計法
国勢調査を始めとする,全国規模の調査の多くは中央官庁によって行われている.この制度
の根拠となっているのは,現行憲法の直前(1957 年 3 月)に制定された “統計法”である.統計
292
統計数理 第 51 巻 第 2 号 2003
法は “統計の真実性を確保する”ことを第一の目的としている.統計法が対象とする官庁統計に
も,指定統計,届出統計,承認統計の別があるが,簡単のため国勢調査を含む指定統計を念頭
にして述べる.法理論のことは知らないが,常識的に読めば “統計調査は社会,国家の実体を
正しく把握し,それを誤りなく人々に伝えることを任務とする”という理念を表明しているも
のであろう.
第 1 条の目的のために被調査者は報告を命令され義務づけられている
(第 5 条)
.選挙に行か
ないのは権利の放棄であるが,国勢調査に協力しないのは脱税と同じような,全体に協力しな
い,犯罪である.違反にたいしては罰則も設けられているが(第 19 条),適用された例はない
そうである.
調査に応ずることを義務づけるために,調査によって知られた,個人,法人,団体の秘密は,
統計の集計,公表,目的外使用のすべての段階を含めて保護される
(第 14 条).これは公務員
が,その職務執行によって得た情報を洩らしてはならない守務義務を補うものである.
さらに第 15 条では,“何人も… 調査票を統計上の目的以外に使用してはならない.” つま
り税務,検察,公安などに個人データを利用することはないことを宣言する.家計調査の所得
と税務署への申告の食い違いを追及されることはない.行政のための届出と分離することによ
り,事実を報告して欲しいという期待である.しかし “目的外使用”の配慮はされ,実際には利
用されている.その際は,非調査者を識別できない方法で使用するよう限定している.
5.3.2 統計の真実性
この基本法も半世紀後には再検討が必要である.第 1 に “統計の真実性”という理念は理想
主義的であって,目標の設定,効率,国際協調などの意識が薄い
(それは法律の外のことかもし
れないが)
.これが制定された頃は第 2 次大戦中に,統計を軍事機密とし戦争を破局的に拡大
したことにたいする反省が強かったのであろう.それ以降,人々の生活,意識,国際環境,統
計技術が変われば,統計の目的,利用法も変わる.統計作成における官庁の役割にも影響が及
ぶ.調査するもの,されるもの,の二分法では,互いに規制を課すだけとなり柔軟性を損なう.
生活環境,生産,経済の急速な変化に対応する統計の必要は絶えず指摘されている.何が必
要な統計であるか国家が考え国民に命令するという感覚では,必要に対応できない.何が重要
であるか,そのためにどこまで調査し,誰にどのように公表するのか,人々が議論し同意し協
力する過程が重要である.
統計の真実性は官庁のキャビネットに格納されているものではなく,人々によって利用され
検討されるものである.集団の事実は,どのような統計量でも公表する努力が必要であろう.
それによって,統計の真実性,信頼性も改善される.日本の統計の質が高いという国際評価が
あるようだが,コストと比較した品質であろうか.人々の生活と思考が急速に変化している中
で,これまでの品質を保てるのであろうか.さらに日本の統計が国際的に十分流通していない
のは大きな損失である.
5.3.3 副次的分析と個人の秘密
公表されているのは調査されたデータを集計した一側面であって,収集されたデータの中に
は多くの統計的事実が記録され,潜んでおり,公表されている型の要約以外の要約,集約が可
能である.その結果は調査の再設計にも活かすことができる.非回答の偏りを正し,記入誤り
を調整する
(pruning)
仕事を正当に評価すべきである.調査対象の活動・生活様式,調査組織の
人員構成,記録・通信・計数・機器の能力,などの環境変化によって非抽出誤差は変化する.
それを測定するには,詳細なデータの慎重な分析を必要とする.行政記録との比較なども双方
の品質管理の手段として役立つであろう.
被調査個体の秘密にはいろいろな水準がある.個体に法人,家族,個人の別があり,個人の
孤立個体数の推測
293
問題が深刻である.個人の秘密について,人々の感情も変化している.過去には身体障害者,
難病患者は隔離され,その家族は疎外された.今では困窮する人が声を出し,周囲の人々が助
けようとし,個人家族の秘密ではなくなっている.しかしプライバシーはあくまでも各個人の
主観,感情であり,秘密の基準を強制することは難しい.罰則により報告を義務付けても,そ
の実質効果がないならば,説明し同意を得た範囲でデータを得るのと同じではないだろうか.
個票を公開し,なお匿名を保つ,つまり公開されたデータから,それが誰か再識別すること
が事実上不可能であることを保証するためには,副次解析の精度が落ちることは犠牲にしなけ
ればならない.解析方法も限定され,たとえば極値解析はあきらめることになる.それでも,
目的外使用の計画を立てるには十分に有用なデータとなる.
5.3.4 研究者の倫理
データを分析しているとき特異な個体が研究者の目に入ることは可能である.多重回帰にお
ける外れ値などが典型的である.研究者は極端な外れ値の特性を調べた上で,分析のために残
すか,除去するかを決定する.外れ値を調べることにより新しい発見もあるだろう.そのとき
のプロジェクトから外れた解析を直ちに実行,発表することはできないだろうが,中間結果を
探索する自由まで制限すると,新しい研究の萌芽が妨げられる.研究者が好奇心をもち過ぎて
漏洩に到るシナリオを心配する人もいるだろうが,研究者は自ら倫理綱領を作り,研究の自由
を広げなければならない.だからといって,個人が誓約した上でデータに触れ,しかも対話的
に分析する機会をはばむ理由にはならない.すべての分析結果について,たとえ見込み違いで
新しい知見が得られなくても報告書を提出してもらい,査読,出版されることが望ましい.そ
のような分析そのものも業績として評価する習慣が必要である.
追 記
本稿 4.2 節特に命題 4.3 について査読者は「無限分解可能確率母関数すなわち無限分解可能
確率変数(分布)ではない」ので,論文では前者を扱うことを明記するよう示唆されそれに従っ
た.しかし「非負整数値確率変数が無限分解可能である必要十分条件は,その母関数が命題 4.3
の型にあらわせることである.」
Steutel, F.W. and van Harn, K.(2003). Infinite Divisibility of Probability Distributions on the
Real Line, Chapter II, Theorem 3.2, p.30, Marcel Dekker, New York.
参 考 文 献
Baayen, R. H.(2001)
. Word Frequency Distributions, Kluwer, Dordrecht.
Bingham, N. H., Goldie, C. M. and Tengels, J. L.(1989). Regular Variation, Cambridge University
Press, Cambridge, U. K.
. Estimating the number of species: A review, J. Amer. Statist.
Bunge, J. and Fitzpatrick, M.(1993)
Assoc., 88, 364–373.
. On the weak form of Zipf’s law, J. Appl. Probab., 17, 611–622.
Chen, W. C.(1980)
Christoph, G. and Schreiber, K.(1998). The generalized discrete Linnik distributions, Advances in
Stochastic Models for Reliability, Quality and Safety(eds. W. Kahle, E. von Collani, J. Franz
and U. Jensen)
, 3–18, Birkhäuser, Berlin.
Christoph, G. and Schreiber, K.(2000). Scaled Sibuya distribution and discrete self-decomposability,
Statist. Probab. Lett., 48, 181–187.
Devroye, L.(1993). A triptych of discrete distributions related to the stable law, Statist. Probab. Lett.,
18, 349–351.
294
統計数理 第 51 巻 第 2 号 2003
Engen, S.(1978)
. Stochastic Abundance Models with Emphasis on Biological Communities and Species
Diversities, Chapman and Hall, London.
. An Introduction to Probability Theory and Its Applications, 3rd ed., Wiley, New
Feller, W.(1968)
York.
. The relation between the number of species
Fisher, R. A., Corbet, A. S. and Williams, C. B.(1943)
and the number of individuals in a random sample of an animal population, Journal of Animal
Ecology, 12, 42–58.
Hill, B. M.(1974)
. The rank-frequency form of Zipf’s law, J. Amer. Statist. Assoc., 69, 1017–1026.
Hill, B. M. and Woodroofe, M.(1975)
. Stronger forms of Zipf’s law, J. Amer. Statist. Assoc., 70,
212–219.
. Central limit theorems for certain infinite urn schemes, Journal of Mathematics and
Karlin, S.(1967)
Mechanics, 17, 373–401.
. The statistical analysis of large number of rare events, Tech. Report, MSKhmaladze, E. V.(1987)
R8804, CWI, Center for Mathematics and Computer Science, Amsterdam.
. Statistical analysis of large number of rare events
Khmaladze, E. V. and Chitashvili, R. Ya.(1989)
and related problems, Transactions of the Tbilisi Mathematical Institute, 91, 196–245.
Khmaladze, E., Nadareishvili, M. and Nikabadze, A.(1997)
. Asymptotic behaviour of a number of
repeated records, Statist. Probab. Lett., 35, 49–58.
Orlov, J. K. and Chitashvili, R. Y.(1983a). Generalized Z-distribution generating well-known “rankdistributions”, Bulletin of Academy of Science, Georgia, 110, 269–272.
Orlov, J. K. and Chitashvili, R. Y.(1983b). On the statistical interpretation of Zipf’s law, Bulletin of
Academy of Science, Georgia, 110, 505–508.
. Partition structures derived from Brownian motion and stable subordinators,
Pitman, J.(1997)
Bernoulli, 3, 79–96.
Read, C. B.(1988). Zipf’s law, Encyclopedia of Statistical Sciences, Vol. 9, 675–676, Wiley, New York.
. Lois de Zipf et sources markoviennes, Ann. Inst. H. Poincaré Sect. B, 14, 169–188.
Rouault, A.(1978)
Sibuya, M.(1979)
. Generalized hypergeometric, digamma and trigamma distributions, Ann. Inst.
Statist. Math., 31, 373–390.
渋谷政昭
(1997)
.多項分布における度数 0,1 のセルの数 漏洩管理のための基礎事実 ,応用統計学,
26, 161–170.
渋谷政昭(1999).ミクロデータの公有化と利用の技術的課題,日本統計研究所(法政大学)研究所報,
No.25, 100–113.
Sibuya, M. and Shimizu, R.(1981). The generalized hypergeometric family of distributions, Ann. Inst.
Statist. Math., 33, 177–190.
. Enumerative Combinatorics, Vol. 2, Cambridge University Press, Cambridge,
Stanley, R. P.(2001)
U.K.
. Discrete analogues of self-decomposability and stability, Ann.
Steutel, F. W. and van Harn, K.(1979)
Probab., 1, 893–899.
. Statistical Disclosure Control in Practice, Lecture Notes in
Willenborg, L. and de Waal, T.(1996)
Statist., Vol. 111, Springer, New York.
Willenborg, L. and de Waal, T.(2001)
. Elements of Statistical Disclosure Control, Lecture Notes in
Statist., Vol. 155, Springer, New York.
Yamato, H. and Sibuya, M.(2000). Moments of some statistics of Pitman sampling formula, Bull.
Inform. Cybernet., 32, 1–10.
. Human Behavior and the Principle of the Least Effort, An Introduction to Human
Zipf, G. K.(1949)
Ecology, Hafner, New York.
Proceedings of the Institute of Statistical Mathematics Vol. 51, No. 2, 261–295 (2003)
295
Number of Categories with a Singleton in Sample and Population
Masaaki Sibuya
(Department of Business Management, Takachiho University)
A classical statistical problem is the study of a population with many categories. The
main concern is not the probabilities of each category but their behavior as a whole when
the sample size is increased. Typical examples are the ecological abundance of species,
vocabularies in statistical linguistics, and patterns in archaeological artifacts. One aspect
of statistical disclosure control (SDC), estimation of individuals who are unique in both
population and sample, is related to the problem.
This review discusses the problem of estimating the number of those categories that
have a unique element in a sample and its population, based on the observed sample.
The motivation to solve the problem in SDC is summarized in the beginning sections.
The problem is shown to be difficult because it has the inverse problem feature. It is related
to some classical problems in statistical abundance models, and the main results in this
field are surveyed. These results are Zipf’s law, the central limit theorem by Karlin, and
the Large Number of Rare Events by a Tbilisi school.
New approaches are discussed in other papers of this special issue of the journal, in
particular the use of infinitely divisible probability generating function. Other approaches,
an application of the Ewens-Pitman family of random partitions and a semi-parametric
inference method are related to Poisson mixtures.
Key words: Abundance models, infinitely divisible probability generating functions, large number of
rare events, sample and population uniqueness, statistical disclosure control, Zipf’s law.
ダウンロード

孤立個体数の推測 - 統計数理研究所