情報技術(IT)から
知識技術(KT)へ
山口 高平 (やまぐち たかひら)
慶應義塾大学理工学部管理工学科
プロフィール
1957年:大阪生まれ
1979年:大阪大学工学部通信工学科卒業
卒論から計算機に知的なことをさせる人工知能の研究に興味
1984年:定理証明システムの高速化に関する研究(博士論文)
1984年~1989年:大阪大学産業科学研究所助手
1989年~1996年:静岡大学工学部助教授
1997年~2004年3月:静岡大学情報学部教授
モデリング
閉じた世界
エキスパート
システム
開いた世界 Semantic Web
マイニング
機械学習
データ前処理+マイニング
+結果後処理
データマイニング
システム構成的アプローチ
AM=アクティブ情報収集 + マイニング
+ ユーザリアクション
平成13年度~16年度
科研費特定領域研究
アクティブマイニング
元田浩教授(阪大)
A03 ユーザリアクション
A01 アクティブ
情報収集
発見
A02 マイニング
3つを有機的に連携するシステムがなかった.
共通データ
肝炎データ
化学薬品データ
A03-09 津本,高林
A03-10 岡田,高橋
A03-11 寺野
ユーザ・リア
クション
A02-05 Bao
A03-11 大澤
MEDLINE
WWW
文献収集・
解析
興味深い知識の発見
A01-02 山田
A02-08 松本
A01-03 北村
マイニング
重み付け
A01-04 沼尾
データ取得
視覚化
知識フィル
タリング
前処理ノウハ
ウ蓄積交換
前処理
前処理・マイニング
共起パタン
時系列
例外知識
A02-05 元田,鷲尾
A02-06 山口
A02-07 鈴木,鍾
A03-09 津本
A03-10 岡田,高橋
A03-11 寺野
帰納アプリケーション構築支援環境: CAMLET
(a Computer Aided Machine Learning Engineering Tool)
CAMLET:ラクダの毛から紡いだ高級織物
→CAMELじゃないのよ!(システム名は単純に!)
メソッド切出し
帰納メソッド
C4.5 AQ15 CS
体系化
探索・合成
NN
帰納システム
の分析
帰納メソッドに
仕様とコードを与え
リポジトリ-を開発
帰納アプリ
ケーション
の自動合成
帰納アプリケーションの合成
訓練集合
更新
スタート
プロセス
空テスト
訓練・テスト
集合生成
分類器
エントロピー
集合生成
集合評価
評価
エンド
重複可
ブートストラップ
テスト集合同一型
重複不可 ランダム
分類器
訓練・テスト
非共有型 ランダム
テスト集合サブセット型
集合更新
共有型
ランダム
空テスト集合生成
集合生成
バージョン空間
表現空間利用型
star
訓練集合 表現空間
分類器
決定木 エントロピー
非利用型
エントロピー+情報レシオ
集合生成 依存型
訓練集合独立型 ランダム生
FP
成
累積評価
配当分配アルゴリズム
評価
集合評価
要素の重み更新
非参照型更新
訓練集合
ホモジニアス操作 ピッツァGA
参照型更新
ヘトロジニアス操作 反例参照更新
更新
ピッツァGA
分類器
非参照型更新 ミシガンGA
BP ホモジニアス操作 削除
集合更新 参照型更新
ヘトロジニアス操作 合成 削除
合成
CAMLETの処理の流れ
自動生成されたマイニングソフトウェア
(実際はC言語のプログラムコード)
Start
ID,SEX,Birthday,Description,First Date,Admission,Diagnosis
2110,F,1934/2/13,94.02.14,93.02.10,+,RA susp.
11408,F,1937/5/2,96.12.01,73.01.01,+,PSS
12052,F,1956/4/14,91.08.13,,+,SLE
14872,F,1953/9/21,97.08.13,,+,MCTD
27654,F,1936/3/25,,92.02.03,+,"RA, SLE susp"
30609,F,1944/7/13,91.08.13,,-,"SLE, MCTD"
43003,M,1937/11/24,94.03.08,94.03.08,-,Raynaud's phenomenon
48473,F,1948/10/7,97.08.13,,+,SLE
52199,F,1954/3/16,,,-,PM/DM
57266,M,1923/7/25,97.02.03,93.02.05,+,RA
58139,F,1972/12/23,,,-,SJS
71417,F,1929/10/20,96.12.03,95.06.20,-,RA
81043,M,1967/3/25,,,-,MCTD
102490,F,1982/4/1,94.02.22,,+,PSS
108788,F,1942/3/15,,,+,SJS
115272,F,1968/4/8,98.07.16,89.03.17,-,BEHCET
115562,,1943/3/17,97.08.20,,+,SLE
115575,F,1970/12/4,94.02.24,,-,SLE
122320,F,1945/10/27,97.07.31,1972.10.19,+,relapsing髜
polychondritis
122405,F,1961/5/22,,,-,SJS
125619,F,1917/4/18,96.11.01,86.11.06,+,SJS
128012,F,1958/1/28,94.02.24,83.01.20,-,PSS
128041,F,1923/9/20,94.02.14,1973.4.8,-,SLE
130312,F,1948/2/23,91.08.12,73.01.30,+,RA
130370,F,1952/8/22,97.08.20,,+,RA
130758,F,1937/8/17,,,-,seronegative RA
133382,M,1934/9/3,96.12.05,92.10.13,+,SLE
133760,F,1935/4/5,97.08.02,1984.5.28,-,SLE
138824,F,1939/4/8,94.02.06,74.07.23,+,"SLE, SJS"
138938,F,1952/10/14,94.02.07,1973.11.1,-,PM
154143,F,1933/10/11,91.08.13,72.08.02,+,RA
154909,F,1935/1/21,96.12.04,94.08.10,-,SJS
163109,F,1950/10/16,97.08.20,,+,SLE
166850,F,1949/1/2,,,+,"SLE, SJS"
174116,F,1973/2/1,91.08.13,76.12.09,+,"SLE, AIHA"
179212,F,1978/5/27,91.08.13,,+,SLE
189721,F,1970/2/2,98.07.08,92.12.03,-,SJS susp
205391,,1929/9/11,98.05.18,92.03.16,+,"BEHCET ( 覺硤), RA
susp"
213279,F,1973/3/12,91.08.13,80.01.03,+,SLE
213370,F,1956/7/17,1991/6/10,1992.05.11,+,MCTD
215972,F,1948/7/30,94.02.19,,+,BEHCET
230650,F,1954/12/10,97.07.30,94.12.02,+,"RA, SJS"
233604,F,1966/9/23,96.12.12,91.11.21,-,BEHCET
250391,F,1967/12/15,94.02.22,78.10.12,-,SLE
283032,F,1951/11/24,94.02.19,85.10.01,-,SLE
287122,F,1953/5/26,,,-,SLE
287861,F,1943/7/6,94.02.19,,-,PSS
298520,F,1936/9/29,98.01.13,1998/1/9,,"BEHCET, SJS"
299839,F,1940/2/19,97.07.31,1975.3.6,-,PN (vasculitis)
304157,F,1920/8/22,94.03.01,91.04.26,-,"RA, SJS"
髄膜脳炎DB
Learning
Default-Generation
Data-Generation
Random-Feature-Selection Feature-Selection
CLS (Gain Ratio)
SelectiveLearning
If-Then-RulesGeneration
If-Then-Rules-EvaluationKnowledge-Evaluation
Loop
Simulated-Annealing
Knowledgesqueezing
If-Then-Rules-EvaluationKnowledge-Evaluation
End
Loc  2.0  C_Course = negative
(適合率=0.86,復元率=0.96)
メタ学習機構(マイニング
ソフトウェア自動生成ツール)
Loc > 2.0  C_Course =aphasia
(適合率=0.33,復元率=0.75)
従来,試行錯誤を伴い手作業でマイニングソフトウェアを開発.
本自動作成ツールを使えば,開発期間が1/5以下に短縮!
専門家が興味深いと
判断したルールの例
パラレルCAMLETマシン
・16CPU
・CPU 1-2GHz
・メモリ 1GB
共通医療データ:肝炎データ
提供元:千葉大学医学部第一内科
約800人の患者の20年間に亘る病歴データ
 データの特徴
生検結果
(960 例)
 大規模な未整備時系列データ
 最大 160 万件
 膨大な数の表記揺れが存在
インターフェ
院内検査項目
(459 項目)
Hepatitis
ロン投与情
報 (198 例) 
検査項目数が非常に多い
 最大 950 項目
 時期により検査項目の再現性
患者基本
情報
(771 例)
が変化,欠損値が多い
院外検査結果
(30.243 件)
院内検査結果
(1.565.877 件)
 検査機器・医学の進歩
 医者によるバイアスが存在
 重病患者には特殊な検査
アルブミン
データの一例
非代償性肝硬変患者
インターフェロン投与時点
日
肝炎データセットのデータ前処理
検査周期均一化後のレコード数
50000
検査項目数あたりのレコード数の累計
45000
40000
35000
1600000
30000
レコード数 25000
1400000
20000
1200000
15000
10000
レコード数
1000000
5000
0
800000
600000
累計
レコード数
400000
200000
0
0
200
400検査項目数600
800
1000
1日
3日未
満
2605
2605
4981
2376
7日未 14日未 28日未 56日未 112日
満
満
満
満
未満
9782
4801
12340
2558
17418
5078
39045
21627
47236
8191
224日
未満
224日
以上
48875
1639
49306
431
短期時系列パターンの組合せに基づくルール発見支援
•
予測正答率: 60.90% (21/34), 再現率: 1.43% (21/1470)
IF 直前24ヶ月のビリルビンの平均値が高く、TTT(チモール混濁試験)が減少する
THEN GPTが減少に転じる
医師のコメント「GPTは周期的な多少の上下動があるもののほぼ一定と理
解してきた。このルールは、GPTの上下動の転移を説明する可能性があり
興味深い。ウィルス活動・バクテリア増殖の周期性とも関連するのか?」
慢性肝炎データセットからのルール発見(2)
得られたルールと専門家の評価
Rule 1
GPT
precision: 55.56%
recall:
6.62%
Rule 2
precision: 37.50%
recall:
15.96%
ALB
ALB
GPTは,微少変化は
あるが,単調減少する
と一般に言われている
GPT
GPT
しかし,ルールはGPT
の約3年の周期変動を
示しており,興味深い
GPT
TTT減少→GPT減少:
抗体の動きが活発→肝炎が緩和される(常識的なルール?)
GPTは周期的な多少の上下動があるもののほぼ一定と理解
してきた。このルールは、GPTの上下動の転移を説明する
可能性があり興味深い。ウィルス活動・バクテリア増殖の
周期性とも関連するのか? (横井,千葉大医学部)
キャリアに対して,TTT検査によりB型ウィルスとC型ウィルス
の比較可能
Murawaki Y, Ikuta Y, Koda M, Kawasaki H. (School of Medicine, Tottori Univ:
Comparison of clinical liver tests between asymptomatic HBV and HCV carriers
with persistently normal aminotransferase levels, Hepatol Res 2001 Sep;21(1)67-75,
from MEDLINE
このルールは,発症前の人(キャリア)と発症した人の両方に
適用可能な点が興味深い(朴先生,大阪市立大医学部)
Semantic Web
システム構成的アプローチ
“The Semantic Web
will globalize KR,
just as the WWW
globalized hypertext
WWWが登場する以前、ハイパーテキストは一部の「理想家」だけが
熱心に取り組んでいる特殊な道具でした。
知識表現や機械に理解可能な知識というコンセプトの現在も、
とてもよく似た状況と言えそうです。
「絶対の真実、全ての物事を網羅する知識、あらゆる可能性といった
中央集約型のコンセプト」から離れて、限られた知識で何ができるか
というところからスタートすることで、知識表現におけるWWW、
すなわちセマンティック・ウェブへの未知が開けてくるというのです。
By TBL
Big Picture for SW (2001)
http://www.semanticweb.org/about.html#bigpicture
Semantic Web Stack
Enabling Standards & Technologies – Layer Cake
(http://www.w3.org/2002/Talks/04-sweb/slide12-0.html)
DAML Ontology Library (Ontology's by Keyword)
http://www.daml.org/ontologies/keyword.html
academic
department
academic
department
Academic
Positions
access
control
primitives
http://www.cs.umd.edu/projects/plus/DAML/onts/cs1.0.dam
l
http://www.cs.umd.edu/projects/plus/DAML/onts/cs1.1.dam
l
http://www.daml.ri.cmu.edu/ont/homework/cmu-riemploymenttypes-ont.daml
http://www.w3.org/2000/10/swap/pim/doc.rdf
acronym
http://orlando.drc.com/daml/Ontology/Thesaurus/CALL/cur
rent/
activity
http://www.kestrel.edu/DAML/2000/12/OPERATION.daml
Actors
http://opencyc.sourceforge.net/daml/cyc.daml
Actors
http://www.cyc.com/2002/04/08/cyc.daml
Actors
http://www.cyc.com/cyc-2-1/cyc-vocab.daml
address book
http://www.w3.org/2000/10/swap/pim/contact.rdf
agenda
http://www.daml.org/2001/10/agenda/agenda-ont
科研費基盤研究(B)
平成15~17年度
DODDLE-R
構築モジュール
入力モジュール
入力概念選択
電子化辞書
階層構築
関係構築
照合&剪定
共起性に基づく
統計処理
入力領域概念
WordSpace
WordNet
初期概念階層
洗練モジュール
テキスト
コーパス
相関ルール
概念対集合
階層洗練
関係洗練
照合結果分析
評価値算出
剪定結果分析
視覚化
モジュール
概念定義
概念階層
変換モジュール
領域オントロジー
(OWL-Lite)
階層参照
構文解析
DODDLE is a
Domain
Ontology
rapiD
DeveLopment
Environment.
Take it easy !
俗語なので伝わりずらい
名前はシンプルに!
(1) Input Module
Input Concept List
WordNet Concepts
Text Corpus
(2) Construction&Refinement Modules for Hierarchy
Concept Drift Management
Taxonomy
(4) Visualization Module MR3: a Meta-Model Management Tool
(3) Construction&Refinement Modules for Relationships
Related Concept Pairs
(5) Translation Module into OWL-Lite
Case Study
• Application Domain:
Contracts for the International Sale of Goods
• Document: CISG text (about 10,000 words)
• Input Concepts: 46 legal concepts from CISG Part-II
<Parameters
WordSpace
Frequency of
Extracted 4-gram
Context Scope
(before:after)
# Extracted
4-gram
7
60:10
543
Association Rule
Minimum
Support
Minimum
Confidence
0.4%
80%
Final Legal Concept Hierarchy
Modifying Concept Specification
Templates with Domain Experts
ex) non-Taxonomic Relationships for “assent”
Concept Specification Template
assent
assent
AGENT
: person
: act
LEGAL-SEQUENCE
: offer
non-TAXONOMY?
: effect
ANTONYM
: withdrawal
non-TAXONOMY?
: offer
non-TAXONOMY?
: person
non-TAXONOMY?
: offeree
non-TAXONOMY?
: withdrawal
non-TAXONOMY?
: time
TAXONOMY
: proposal
non-TAXONOMY?
: offeror
TAXONOMY
Final Concept Specification
with Domain Experts
non-taxonomic relationships:
taxonomic relationships:
inheritance:
unnecessary:
person, offer, withdrawal
act, proposal
offeror, offeree
effect, time
MMM Project
• Goal: Building up a total environment of MetaModel Management (MMM) for Semantic Web
DODDLE
MMM
WWW
Ontology Development
MR3
RDF & RDFS Visual Editing
Meta-Model Management Project
http://mmm.semanticorg.com
LordBader
Meta-level BPM for Web Services
今後の研究方針
データ爆発時代に応えるKT
• Semantic Web:欧米で多くのプロジェクト発足
企業も電子政府を睨んで参入
テクノロジーベンチャー
• Semantic Web を普及させるためのツール,
アプリケーションの開発:
新規性と有用性のバランス,国際交流,学生
ダウンロード

情報技術(IT)から 知識技術(KT)へ