Multiclass Object Recognition with Sparse,
Localized Feature
伊原有仁
はじめに

画像中の複数物体を認識する問題

Object recognition with features inspired by visual cortex
[T.Serre et al. CVPR2005]


生物学的な物体認識モデルをマルチクラスの物体分類
問題に適用
Multiclass Object Recognition with Sparse,
Localized Feature [Jim Mutch and David G. Lowe, CVPR’06]
Multiclass Object Recognition with Sparse, Localized Feature
視覚

視覚野



背側皮質視覚野(a)


V1(第一次視覚野)
V2, V3, V4, V5(外線条皮質)
Where経路:運動,物体の位置
腹側皮質視覚野(b)

What経路:視覚対象の認識や形状の表象
Multiclass Object Recognition with Sparse, Localized Feature
視覚

腹側皮質視覚野(b)


V1→V2→V4→ITの順に処理
V1(第一次視覚野)
– 単純型細胞(Simple cell)
・直線の傾き:ガボールフィルタリング
– 複雑型細胞(Complex cell)
・図形の移動方向:単純型細胞の集合
Multiclass Object Recognition with Sparse, Localized Feature
視覚

腹側皮質視覚野(b)


V1→V2→V4→ITの順に処理
V2(第二次視覚野)
– 二本の線の組み合わせ
・十字やコーナー
Multiclass Object Recognition with Sparse, Localized Feature
視覚

腹側皮質視覚野(b)


V1→V2→V4→ITの順に処理
V4(第四次視覚野)
– 必要な情報だけを選択
<例>:カクテルパーティー効果
– 自分にとって親しい人間の声はすぐに聞き分けられる
Multiclass Object Recognition with Sparse, Localized Feature
視覚

腹側皮質視覚野(b)


V1→V2→V4→ITの順に処理
IT(下側頭野:Inferior Temporal)
– より複雑な図形に応答
Multiclass Object Recognition with Sparse, Localized Feature
基本モデル
1:アスペクト比を保ったままダウンサンプリング
2:4方向のガボールフィルタリング
Multiclass Object Recognition with Sparse, Localized Feature
基本モデル
2:4方向のガボールフィルタリング
:アスペクト比
:影響範囲
:波長
1点において4つの特徴量
Multiclass Object Recognition with Sparse, Localized Feature
基本モデル
2:4方向のガボールフィルタリング
3:局所最大値のプールを作成
10pixel×10pixel×2scaleの範囲を各角度毎に探索
V1のモデルを表現
Multiclass Object Recognition with Sparse, Localized Feature
基本モデル
3:局所最大値のプールを作成
4:学習データ(d=4,075)から作成したC1 Layerとのユークリ
ッド距離を算出
:学習画像C1レイヤーの各パッチ特徴量
:入力画像C1レイヤーの各パッチ特徴量
V4,ITのモデルを表現
Multiclass Object Recognition with Sparse, Localized Feature
基本モデル
5:最大の出力値を算出
6:C2 レイヤー を用いて特徴ベクトルをSVMで学習,識別
Multiclass Object Recognition with Sparse, Localized Feature
提案モデル

大まかなS2レイヤー入力

C1レイヤーで最大値となる方向のみのパッチを作成
4方向から12方向へ増加
Multiclass Object Recognition with Sparse, Localized Feature
提案モデル

S1/C1レイヤーにおける特徴量の選択

注目点の応答値Rが式を満たす場合,値を0にする
Multiclass Object Recognition with Sparse, Localized Feature
提案モデル

C2構築時のS2レイヤーの探索範囲の制限

背景の誤検出を抑制
画像サイズの±tp%,±tsスケール
実線:学習用画像のS2
点線:テスト用画像のS2
Multiclass Object Recognition with Sparse, Localized Feature
提案モデル

SVMの重みによる特徴選択

S2がランダムで選択されるため背景や識別に有効でない特徴も
選ばれるため
Multiclass Object Recognition with Sparse, Localized Feature
実験1:識別実験

Caltec101から9,197枚,Googleから背景画像




各カテゴリーからランダムで15枚もしくは30枚の学習用画像を
選択し,残りをテスト画像に設定
学習用画像からランダムで特徴量を学習,C2ベクトルの算出
SVMにより学習
テスト画像からC2ベクトルの算出を識別
Multiclass Object Recognition with Sparse, Localized Feature
実験1:結果
Model
15 training images/cat.
30 training images/cat.
Our model(base)
33
41
Serre et al.
35
42
Holub et al.
37
43
Berg et al.
45
Grauman & Darrell
49.5
58.2
Our model(final)
51
56
Multiclass Object Recognition with Sparse, Localized Feature
実験2:パラメータを変化させた識別実験

最適パラメータを変化させた識別



Caltech 101から簡単な顔画像と背景画像を取り除く
100カテゴリーを画像枚数の多い順にソートする
奇数をグループA,偶数をグループB
Multiclass Object Recognition with Sparse, Localized Feature
実験2 :結果(1/2)
ガボールフィルタの方向:12方向
S1/C1の特徴量抑制パラメータh:0.5
範囲の許容差:±5%
スケールの許容差:±1 scale
Multiclass Object Recognition with Sparse, Localized Feature
実験2 :結果(2/2)
SVMの重みによって選択する特徴ベクトルの数:1,500
特徴量を抽出するウィンドウサイズ:4×4
Multiclass Object Recognition with Sparse, Localized Feature
実験3:車検出実験

UIUC car dataset




Training set(100×40pixel)
Single-scale(100×40pixel)
Multi-scale
ウィンドウをスライドさせて検出



水平に5pixel
垂直に2pixel
8回試行したときの平均
Multiclass Object Recognition with Sparse, Localized Feature
実験3:結果
Model
Single-scale
Multi-scale
Agarwal et al.
76.5
39.6
Leibe et al.
97.5
Fritz et al.
Our model
87.8
99.94
90.6
Multiclass Object Recognition with Sparse, Localized Feature
実験3:検出例
Multiclass Object Recognition with Sparse, Localized Feature
実験3:未検出,誤検出例
Multiclass Object Recognition with Sparse, Localized Feature
おわりに

生物学的に動機付けられたアプローチの有効性


まばらな情報
今後


より正確なモデルの作成
学習データにおいて最も頻出する特徴をクラスタリング
Multiclass Object Recognition with Sparse, Localized Feature
ダウンロード

Multiclass Object Recognition with Sparse, Localized Feature