表形式仕様書からの
ソフトウェア情報の自動抽出
について
土田 賢省 (東洋大学工学部)
塩野 康徳 (東洋大学大学院M1)
平成16年12月4日 第124回 WAAP
(於:日本大学文理学部)
本日の発表内容
1
2
3
4
5
背景
目標
関連研究
KEYAKIの既存研究
まとめ
「既存システムのデモ」(by 塩野)
2
1. 背景
1. 1 電子文書化の加速





e-ビジネスの展開・発展
「e文書法」
XBRL
ebXML
電子帳票のツールや支援システム開発・商用化
1. 2 ソフトウェア仕様書、 XML
3
「e文書法」





【電子文書法】デンシブンショホウ
別名 : 民間事業者等が行う書面の保存等における情
報通信の技術の利用に関する法律
2004年11月に制定。施行は2005年4月。
帳票類や財務諸表、取締役会の議事録など、商法や
税法などで企業に保存が義務付けられている文書につ
いて、電子化された文書ファイルでの保存を認める。
紙の文書をスキャナで読み取った画像データも一定の
要件を満たせば原本として認められる。
4
「e文書法」(続き)


e-文書法が実施されることにより、税務関係書類の50%から90%近く
を電子保存できると試算されており、保有コストの大幅な軽減が見込ま
れる。
税務研究会が発行する「週間税務通信(No.2827)」に掲載された企業
からのヒアリングによる負担軽減効果の試算によると、以下のように
95%以上の保存書類の軽減が見込まれている。
・金融サービス会社:37万箱中36万箱が電子保存可能(保存量97%減)
・メーカー:5.9万箱中5.6万箱電子保存可能(保存量95%減)
・流通会社:75.4万箱中75.3万箱が電子保存可能(保存量99%減)
(http://nikkeibp.jp/wcs/leaf/CID/onair/smbit/infra/344691 より抜粋)
5
XBRL
財務情報・事業報告等を記述するためのXML
ベースの言語
 海外で資金調達する金融機関は、2007年から
XBRLによる報告が義務付けられる(バーゼル
銀行監督委員会での合意による。BIS規定)
 XBRL Japanが2001年4月発足し、
2004年2月末時点で73社が加盟。
 XⅡ:XBRLの策定、普及活動団体
(http://www.wbrl.org)

6
ebXML(Electronic Business XML)

全世界的なBtoB電子商取引の取り引きを可能とす
るために、XMLのスキーマ、ボキャブラリ、通信方
法、取り引き情報記述法などの、世界唯一の標準
を提供することを目的とした団体。UN/CEFACTと、
OASISが中心となってebXMLを推進しており、
1999年11月に設立された。
(http://www.atmarkit.co.jp/aig/01xml/ebxml.html より抜粋)
(注) 同団体によって規定される技術標準も指す。
7
電子帳票のツールや支援システム開
発・商用化

下記の展示会より2例
第13回 ソフトウエア開発環境展 SODEC (ソデック)
13th Software Development Expo & Conference in
Tokyo
2004年7月7日(水) ~ 2004年7月9日(金) 10:00
~17:00
東京ビッグサイト
118社
8
NeoCore XML Management
System(XMS)
三井物産株式会社
システム構成図
9
NeoCore XML Management
System(XMS)(続き)
活用例1
Webコンテンツ管理
10
NeoCore XML Management
System(XMS)(続き)
活用例2
帳票管理
11
XRFseries(XRF Designer, XRF
Composer, XRF Reader)、
JointBase
株式会社プリズム
全体構成図
12
1. 2 ソフトウェア仕様書、 XML

表形式のソフトウェア仕様書


作成・参照・管理・教育などの使用目的に適している
様々の分野のソフトウェア仕様書に表形式が採用
例.組み込みソフトのEXCEl形式の仕様書(日立)

XMLの普及


XMLとドキュメント標準化
XMLとデータベース

Oracle,Microsoft SQL Server,Xindice ,・・・
13
1. 2 ソフトウェア仕様書、 XML (続き)

XMLのソフトウェア仕様書への利用における問題点

仕様書のチェック、情報抽出・格納は人為的作業に依存
ヒューマンエラーの内包、膨大な工数

仕様書作成の支援機能が不十分

XMLをそのまま利用した単純な検索のみ

ドキュメント内容に図・表があまり扱われていない
14
2. 研究の目標
◎表形式仕様書を入力とし、グラフ文法による統
一的な定式化に基づき、構文解析ならびにソフト
ウェア情報の抽出を行い、さらに抽出したデータ
をWEBデータベースに登録する一連のプロセス
全体の自動化を目指す。


手書き書面も含めた紙ベースの大量の表形式
仕様書の光学的な手段による入力も考慮
WEBデータベースはソフトウェア開発支援向け
の検索・管理機能を具備
15
2. 研究の目標(続き)
入力:表形式仕様書
表形式仕様書画像認識
マーク付きグラフ
属性グラフ文法1
(表画像認識)
構文解析
導出木
属性評価
属性グラフ文法2
(表の構造解析,
ソフトウェア情報抽出)
XMLファイル
DB用データ生成・登録
WEB
データベース
情報検索・管理(ソフト
ウェア開発支援用)
システム全体構成図-1型
16
2. 研究の目標(続き)
入力:表形式仕様書
商用OCR・表解析ソフト
マーク付きグラフ
構文解析
導出木
属性グラフ文法
(表の構造解析,
ソフトウェア情報抽出)
属性評価
XMLファイル
DB用データ生成・登録
WEB
データベース
情報検索・管理(ソフト
ウェア開発支援用)
システム全体構成図-2型
17
3. 関連研究

表の構造認識



渡邉 他,“帳票文書の構造認識のための書式構造知識
の自動獲得”,信学論(D-Ⅱ),J76-D-Ⅱ,3,534-545,
1993年3月
天野 他,”Graph Grammar Based Analysis System of
Complex Table Form Document”, Proc. 7th ICDR, 916920, 2003年
會澤,中村 他,” Parsing of two-dimensional images
represented by quadtree adjoining grammars”, Pattern
Recognition 32(2), 277-294, 1999年
18
3. 関連研究(続き)

XMLのソフトウェア情報DB化への利用

“プログラム解析情報のXMLデータベース化”,(山中,大
畑,井上(大阪大学),コンピュータ ソフトウェア, Vol. 19,
No.1, 39-43, 2002年)
19
4. KEYAKIの既存研究
[全国大会]
[1] 有田,冨山,夜久,宮寺,杉田,土田, “NCEグラフ文法による図表の構
文的処理”, 電子情報通信学会情報・システムソサイエティ大会講演,
D3-3, 2000年
[2] 仲川,有田,冨山,夜久,宮寺,土田,“A Syntax Directed Environment
for Tabular Form Processing”,電子情報通信学会総合大会, 立命館大
学, D-3-7,2001年3月28日
[3] 井上,有田,夜久,土田,“属性edNCEグラフ文法による表のXML表現”,
電子情報通信学会総合大会, 立命館大学, D-3-8,2001年3月28日
[4] 坂井,山口,杉田,夜久,土田,“ソフトウェア仕様書のXMLによるデータ
ベース化”,電子情報通信学会総合大会, 東北大学, D-3-4, 2003年3月
20
4. KEYAKIの既存研究(続き)
[研究会]
[1] 有田,冨山, “An Arribute Precedence Graph Grammar and Tabular
Forms”,「計算機科学の基礎理論:21世紀の計算パラダイムを目指して」研
究集会,数理解析研究所講究1148 (no. 5), 23-28, 2000年 4月
[2] 冨山,有田,夜久,土田,“属性edNCEグラフ文法による表の構文的編集”,
信学技法Vol.100 No.471, (SS2000-23),1-7, 2000年11月20日
[3] 井上,仲川,有田,夜久,土田,“形式的文書操作のための表形式用XML
ビューア”,ソフトウェアサイエンス研究会 信学技法,SS2001-43, 31-38,
2002年1月
[4] T. Arita, S. Nakagawa, K. Tsuchida, and T.yaku, “FXL : A Form Exchange
Language fo Modular Form for Program Specification Documents”,第5回プ
ログラミングおよび応用のシステムに関するワークショップSPA ’02 , 2002年
3月
21
4. KEYAKIの既存研究(続き)
[国際会議]
[1] T. Arita, K. Tomiyama, T. Yaku, Y. Miyadera, K. Sugita and K. Tsuchida,
“Syntactic processing of diagrams by graph grammars”, Proc. 16th IFIP World
Computer Congress Internat. Conf. Software (ICS2000), 145 - 151, 2000.
[2] T. Arita, K. Sugita, K. Tsuchida and T. Yaku, Syntactic Tabular Processing by
Precedence Attribute Graph Grammars, Proc. of the IASTED Inter. Conf.
APPLIED INFORMATICS, Innsbruck Austria,
637-642, 2001. 2
[3] T. Arita, Y. Miyadera, S. Nakagawa, K. Tomiyama, K. Tsuchida and T. Yaku,
“Syntax directed environmont for tabular form design”, IEEE CS-ACM
Internat. Conf. Software Engin. 2001 (ICSE2001), Poster Session, Tronto,
Canada, 2001
[4] O. Inoue, K. Tsuchida, S. Nakagawa, T. Arita and T. Yaku, “An XML Viewer
for Tabular Forms for Use with Mechanical Documentation”, presented at
IASTED Inter. Conf. APPLIED INFORMATICS, 2002. 2
(Proc. of IASTED Inter. Conf. APPLIED INFORMATICS, 1284-1289, 2003. 2)
22
4. KEYAKIの既存研究(続き)
[論文誌]
[1] T. Arita, K. Tomiyama, K. Tsuchida and T. YAKU,
“Application of Attribute NCE Graph Grammars to Syntactic Editing of
Tabular Forms”, Electronic Notes in Theoretical Computer Science,
Vol. 50, No. 3, 7 P (Proc. GT-VMT01, pp.284 – 290), Elsevier
Science, 2001. 7
23
4. KEYAKIの既存研究(続き)
[卒論/修士論文](日本大学文理学部情報システム解析学科夜久研)
[1] 有田友和,“An edNCE graph grammar for modular tabular forms”,
H11年度 修士論文
[2] 泉 博貴,「グラフ文法による構文的プログラム仕様書処理系の実現」,
H12年度 卒業論文
[3] 冨山聖宣 ,”Syntactic editing of modular tabular forms”,
H12年度 修士論文
[4] 仲川俊一,“File Structures for Modular Form Processing Systems”,
H13年度 修士論文
24
4. KEYAKIの既存研究(続き)
[卒論/修士論文](東洋大学工学部情報工学科土田研)
[1] 井上 理,「属性edNCEグラフ文法による表のXML表現表示」,
H13年度 修士論文,(東洋大学校友会学生研究奨励賞受賞)
[2] 新見卓也,「XMLによるプログラム仕様書のデータベース」,
H14年度 卒業論文
[3] 坂井美紀,「ソフトウェア仕様書のXMLによるデータベース化」,
H15年度 修士論文
[4] 片山由紀,「XML に基づくHiform 入力システムの開発」,
H15 卒業論文,(東洋大学校友会学生研究奨励賞受賞)
[5] 磯脇 綾,「XMLに基づく仕様書DB問い合わせシステムの開発」,
H15年度 卒業論文
25
4. KEYAKIの既存研究(続き)
入力:表形式仕様書
[塩野?]
表形式仕様書画像認識
マーク付きグラフ
[有田]
構文解析
属性グラフ文法
(表のレイアウト情報,
XMLソース生成)
導出木
本研究と既存研究(人) [井上]
との関係
属性評価
XMLファイル
[新見]
XSLT変換
[片山]
XMLファイル
[坂井]
対話型Hiformエディタ
DB用データ生成・登録
データベース
(MySQL)
仕様書DB
問い合わせシステム
26
[磯脇]
4. KEYAKIの既存研究(続き)

XMLに基づくHiform仕様書データベースシステム
(H15年度、坂井、片山、磯脇)

仕様書作成の支援機能を備えた入力

データを自動的に既存のRDBに格納

ソフトウェア仕様書特有の問い合わせ

対象は図を含むドキュメント
27
Hiform仕様書データベースシステム(続き)

Hiformの例(A1.プログラム概要書)
28
Hiform仕様書データベースシステム(続き)
Hiform
入力システム
XML
<?xml…..>
_______
_______
______
変換システム
(XML→MySQLテーブル)
MySQL
仕様書DB
問い合わせシステム
システム全体の構成図
29
Hiform仕様書データベースシステム(続き)
[入力]
 Hiform仕様書

表の枠組み中にテキスト・図の記述が可能
[出力]


XMLファイル
MySQLテーブル
30
Hiform仕様書データベースシステム(続き)

Hiform入力システム

変換システム

仕様書DB問い合わせシステム
31
Hiform入力システム

対話的に仕様書の必要項目を入力
→ 仕様書の構文に適合するかチェック

Hiformに対応するXMLファイルを生成


スタイルシートは定義されている
開発言語: Java
32
Hiform入力システム(続き)
新規・修正選択画面
33
Hiform入力システム(続き)
Hiform様式選択画面
34
Hiform入力システム(続き)
入力画面
35
Hiform入力システム(続き)
生成されたXMLファイルのソース
36
Hiform入力システム(続き)
生成された仕様書
37
Hiform入力システム(続き)
SVGファイルのソース
38
変換システム

DB用データの生成:
XMLファイルから自動的にDB用データを生成

表示: 汎用のWebブラウザ(IEなど)が利用可

開発言語: PHP

開発ツール: PXBASE*(PHP用ライブラリ)
* PXBASE
•
フリーソフト ― 作者:田中 秀哉
http://www18.tok2.com/home/koumori27/xml/
39
変換システム(続き)
XMLファイル選択画面
40
変換システム(続き)
XMLファイルに対応するMySQLテーブル
41
仕様書DB問い合わせシステム

データベース: MySQL



オープンソースデータベース
SQL関数の利用が可能
仕様書特有の問い合わせ機能

更新履歴

表示: 汎用のWebブラウザ(IEなど)

開発言語: PHP
42
仕様書DB問い合わせシステム(続き)
MySQLにおける問い合わせ結果表示
43
仕様書DB問い合わせシステム(続き)
更新履歴の結果表示
44
45
仕様書DB問い合わせシステム(続き)
あるプロジェクトの変更履歴
46
ダウンロード

ソフトウェア仕様書のXMLによるデータベース化