地球観測衛星による
植生指標データからの
長期年間変動のモデリング
-ML法、MAP法を用いて高知大学理学部
情報科学教室
吉岡和浩・本田理恵
JPGU 2008
はじめに
2



リモートセンシングによって地球環境データが長期間に
わたって蓄積され、また、データの整備(校正)が進ん
できた。
 e.g, NOAA GIMMS (NDVI 1981-2006の25年分)
他方、機械学習や統計学習の手法を利用して大量データ
から知識発見を行う“データマイニング”の研究が諸分野
で発展している。
リモートセンシングデータからも、データマイニング的
アプローチにより有用な変動パターンの発見が可能にな
ることが期待できる。
The GIMMS (Global Inventory Modeling and
Mapping Studies)
3

地球観測衛星 NOAA 7, 9, 11, 14, 16 , 17号搭載の
AVHRR から構築されたNDVI(植生指標)のデータセット
8000
7000
6000

1981-2006年(25年分!)
5000
4000
3000

Viewing geometry, 火山性エアロゾル, その他の影響要
因の校正がなされている
2000
1000
0
0
500
1000
1500
2000
2500
3000
3500
4000
4500
Color NDVI 植物
活動
黄色 小
小
Year
2000
NDVI
緑
大
大
Example of MODIS EVI Data

問題点

EVI, NDVIなど、植物活動指標は、大気、地表(雪
など)、センサの状態などの影響により、ノイ
ズや欠落を多く含み、そのまま扱うのが難しい
過去の検討例

This may cause the
bias of the soluiton.
Zhang et al. 2003


恣意的な分割、欠落値補間による最小2乗法フィッテ
ィング
ML, MAP法による統計的モデリング(Honda 2006)
 →一年単位のデータにしか対応していなかった。
c
c
EVI
c
c
c
c
T
c
c
c
 f1 (ti | 1 ) t  tc
F (ti |  )  
 f 2 (ti |  2 ) t  tc
cj
f j (ti |  ) 
dj
a j  b j ti
1 e
本研究の目的
6

植生指標“多年”データのモデリングをデータマイニング的
アプローチで検討する
 ノイズ・欠落への高い耐性確保
→統計モデリングのアプローチ
スケーラビリティ確保
→大量データへの適用性
 自動化
→恣意的なデータ操作を排除
 高利用性確保
 モデル関数へのフィッテング問題とすることで、2次
情報の抽出など利用性を高める→green up時期の推定
など

モデル関数
7

Piecewise ロジスティック関数(Zhang et al
(2003), Honda(2006))
区分境界 tbk  ti  ttk は、
 f 1(ti |θkj ), tbk  ti  tt k
得られたモデルの交点から
F (ti |θ)  
自然に決める
 f 2(ti |θkj ), tt k  ti  tbk 1
ckj
f (ti |θkj ) 
 d kj , k  1,2,  n, j  1,2,
1  exp(akj  bkj * ti )
θ {θkj | k  1,2,  n, j  1,2},θkj  akj , bkj , ckj , d kj | k  1,2,  n, j  1,2
本研究で用いたパラメータ推定法

Piecewise ロジスティック関数モデルに基づい
て、より統計的に厳密なパラメータ推定法を
用いる

Maximum Likelifood (ML) approach

モデルの周りに、観測値がある確率密度分布で存在するこ
とを仮定して、尤度を最大化するパラメータを決める


ノイズ分布をモデルに含めることができる
Maximum a Posterior (MAP) approach


ノイズ分布に加え、パラメータの分布がモデル自身に含ま
れる
データが欠落しているとき, MAP は、パラメータの確率密度
分布を頼りにする

ノイズに加え、欠落への耐性が期待できる。
Maximum a Posterior (MAP)

observation
観測値がモデルの周りにガウス分布をD  y(t1 ), y(t2 ),  , y(tm )
すると仮定する。
m
P( D |  )   N ( F (ti |  ),),
i 1

モデルパラメータの確率密度分布を仮定する。
model
n
P( )   N (  i , i )
F (t |  )
事前確率 prior probability
i 1

事後確率を最大化するような、パラメータを求める
S ()  log P( D |  ) P( )
  arg max S ( )

 P( | D)
事後確率
Posterior Probability
Example of fitting result
Prediction error


Take one time point from each time series and guess
that value from the model built from the rest of the
data.
Prediction Accuracy measure
erms
erms 
erms of themean predictor

Mean predictor
1
ymp (t ) 
y (i, j, t ),

| Dataset | (i , j )Dataset
erms
MAP
0.135
Zhang et al (2003)
0.209*
* Fitting error (not a prdiction error)
実験
12


多年分の人工データに各方策を適用し、方策
ごとの計算時間、精度の違いをみる。
各年数で50ケース試行

初期値の影響を軽減するため、1ケース当り20
回の試行を行い、最も尤度または事後確率が高
いものを解とする。
項目
設定手法(または数値)
アルゴリズム
ML,MAP
区分化
固定,自動決定
年数
1,3,5,8,13,18,23
実験結果1-失敗件数13
年範囲固定
ML
年範囲固定
MAP
年範囲
自動決定
MAP
年範囲
自動決定
ML
1年
0
0
0
0
3年
0
0
0
0
5年
2
0
0
0
8年
0
0
0
0
13年
1
0
0
0
18年
2
0
0
0
23年
2
0
0
0
実験結果の評価方法
14

50ケースを通じての、反復回数・実行時間・
誤差の平均値・標準偏差を算出

誤差は以下の式で算出
1 n
2 y (ti )
y (ti )  F ti  F (ti )
erms 

n i 1
は、対象データ
は推定結果
実験結果2-誤差15
600
500
ML(年範囲自
ML(年範囲固
動決定)
定)
MAP(年範囲
自動決定)
ML(年範囲固
定)
MAP(年範囲
MAP(年範囲
固定)
固定)
誤差
400
300
200
100
0
0
5
10
15
年数
20
25
実験結果3-反復回数16
60000
反復回数(回)
50000
ML(年範囲固
定)
MAP(年範囲固
定)
ML(年範囲自
動決定)
MAP(年範囲自
動決定)
O(n) で増加
40000
30000
20000
10000
0
0
5
10
15
年数
20
25
実験結果4-実行時間-
実行時間(秒)
17
O(n2 ) で増加
100
90
80
70
60
50
40
30
20
10
0
ML(年範囲固定)
MAP(年範囲固
定)
ML(年範囲自動
決定)
MAP(年範囲自動
決定)
0
5
10
15
年数
20
25
対策
18
モデリング範囲を固定し、スライド



範囲を5年とし、2年のオーバーラップを持たせる
→データの始点、終点付近の精度の維持の為
VI
8000
7000
6000
5000
4000
3000
2000
1000
0
0
500
1000
1500
2000 日数
2500
3000
3500
4000
4500
実験結果5-実行時間-
実行時間(秒)
19
100
90
80
70
60
50
40
30
20
10
0
ML(年範囲固定)
O(n)
0
5
10
15
年数
20
25
MAP(年範囲固
定)
ML(年範囲自動
決定)
MAP(年範囲自動
決定)
ML(推定範囲スラ
イド)
MAP(推定範囲ス
ライド)
Application
Accurate determination of
Phenological transition dates
Zhang et al (2003)
結果
21

本研究の手法は、ノイズ・欠落に耐性をもち、スケーラブ
ルで、自動化可能、という、データマイニングに好ましい
性質を備える可能性を確認した。
 ML, MAP法


年境界自動決定


→人為的作業を排除しつつ、複数年になっても1年の時と同
様の制度が確保できる
推定範囲を区分化しスライド

計算時間 O(n2 )
保
から
O(n)
に削減→スケーラビリティ確
MAPのMLに対する優位性は明確には確認できず
今後は、GIMMS, MODIS-EVIなど、現実の長期間、広範囲の


→ノイズ、欠落への耐性確保
ダウンロード

地球観測衛星による 植生データからの 年間変動の抽出