電子文書の
長期的保管のための枠組
2000年9月8日
伊戸川 暁 (株式会社リコー)
2000-09-08
資料保存協議会セミナー#3
1
0.1個人的経緯

コンピュータへの興味


それに関連した研究室に進む
高校時代に学園祭で資料館展示を担当

資料保存という問題との遭遇、以後も問題意
識として残る
両方の興味を満足させるテーマということで
卒論以来論題の世界に足を踏み入れた
2000-09-08
資料保存協議会セミナー#3
2
0.2 問題とする領域

電子情報一般を対象とする




Web上にあるか否か、等々を問わない
個別のコレクションの話ではない
よって話が抽象的に過ぎるかもしれない
検索等のトピックは扱わない

2000-09-08
論題の上に構築されるべきものと考える
資料保存協議会セミナー#3
3
1. 問題点は何か?(1/3)
様々なレベルの問題が混在
 媒体の寿命


よくて十数年しか保証されていない
技術の進展の速さ

2000-09-08
現存の技術は数年で廃れるかもしれない
資料保存協議会セミナー#3
4
1. 問題点は何か?(2/3)

永続的な命名手段の不徹底



URLは「腐る」
実装を伴った提案は幾つかあるが…
セキュリティ(特に原本性の保証)

2000-09-08
電子署名・電子透かしの存在、しかしここにも
「技術の進展の速さ」の問題
資料保存協議会セミナー#3
5
1. 問題点は何か?(3/3)


価値判断を組み込む方法の不備
管理権限やその委譲に関する規格の不備


実装例はCNRI Handleを見るのみ
必要なメタデータの記法の不備

2000-09-08
書誌情報のための提案ならあるが…
資料保存協議会セミナー#3
6
2. 現状はどうか?

個別の問題を解決する技術は存在する


問題の全体を包括する政策的な提言も存
在する


例:以降のスライドで参照
例:各国文書館の提言やポリシー
が、包括的な技術は枠組から存在しない
∴まずは枠組を作ろう!
2000-09-08
資料保存協議会セミナー#3
7
3.演者の提案

POT(Persistent On-line Text)という、電
子情報の長期的保管のための一組のモデ
ルを提案




2000-09-08
階層モデル
各階層における文書構造モデル
階層間や外部をつなぐAPI(Appreciation
Programming Interfaces)
命名規約
資料保存協議会セミナー#3
8
3.1 諸問題の階層化

物理層・分散層・文書層・解釈層の4層を
導入

OSIの7層モデルに倣って階層を導入し、問題
点を整理
利用者
解釈層
文書層
分散層
物理層
2000-09-08
資料保存協議会セミナー#3
9
物理層・分散層
物理層
 自律的に新しい媒体へファイルを転送
→「媒体の寿命」を解決

既存の関連技術:RAID, migrationなど
分散層
 ネットワークを介して文書を遠隔地に分散
し、安全性を高める
※文書層・解釈層は後述
2000-09-08
資料保存協議会セミナー#3
10
3.2 データの関連づけ
文書層以上において与えた技術的詳細



文書という単位とその構成要素
文書の種別及び文書同士の関連の仕方
利用者(管理者や閲覧者)が文書にアクセスす
るための規約(API)
これらに従うことで、利用者の電子文書は数
百年の寿命を持つことが可能になる(であ
ろう)
2000-09-08
資料保存協議会セミナー#3
11
文書層による枠組みの構成
「文書」という単位を定義
→「必要なメタデータの記法」の一部を提示



既存の関連技術:XML
解釈層における拡張の余地を残している
文書
識別子
他の文書へ
リンク集合
履歴情報
本文
(任意の形式)
2000-09-08
資料保存協議会セミナー#3
12
解釈層による管理情報の処理

管理情報もまた文書として登録(管理文書)

制御文書・認証文書・仕様書
文書登録の際には管理文書へのリンクを義
務づけ
→将来起こりうる混乱を最小化

2000-09-08
資料保存協議会セミナー#3
13
制御文書による
管理計画の明示
制御文書: 管理計画(将来的な文書の存否・公
開範囲)を記すもの
 制御文書へのリンクで管理計画の所持を強制
→「価値判断を組み込む方法」の提示

登
録
す
る
文
書
2000-09-08
リンク
5年後
公表
資料保存協議会セミナー#3
3年で
廃棄
14
認証文書による所有権の明示

認証文書: 管理者に関する情報を記すもの


登
録
す
る
文
書
2000-09-08
認証文書の集合は認証局DBとみなしうる
既存の関連技術:X.509など
リンク
管理者
A
資料保存協議会セミナー#3
管理者
B
15
認証文書による所有権の明示
文書の所有権を認証文書へのリンクで示させる
→「管理権限やその委譲に関する規格」の提示
→「セキュリティ」の一部解決

2000-09-08
資料保存協議会セミナー#3
16
仕様書による文書形式の明示
仕様書: 文書形式の解釈方法を記したもの
 仕様書へのリンクを文書に強制することによって
「技術の進展の速さ」の問題を解決

登
録
す
る
文
書
2000-09-08
リンク
古い
ワープロ
の仕様
資料保存協議会セミナー#3
HTML
の仕様
17
アクセスのための規約(API)

利用者と解釈層のほか、階層どうしについ
てもデータのやり取りの方法を定式化
例:文書の閲覧に関するAPI(の集合)
外部
利用者
閲
覧
結果
解釈層
文書識別子
利用者識別子
文書層
認証文書
識別子
本文
リンクの集合
閲覧の
可否を判断
仕様書
ログ
制御文書
管理計画
•管理計画に基づいて閲覧内容を判断
2000-09-08
資料保存協議会セミナー#3
18
命名規約

変更を許さない識別子を各文書に与える

文書更新時は名前を違えたものを再登録
識別子は文書の物理的位置に依存しない
→「永続的な命名手段」を与える


既存の関連技術:PURL, CNRI Handleなど
2000-09-08
資料保存協議会セミナー#3
19
3.3 プロトタイプの実装
Linux+JDK1.2の環境下で、モデルの検証の
ための簡単なプロトタイプを作成した
2000-09-08
資料保存協議会セミナー#3
20
4.まとめ

(おそらく)初めて、既存(あるいは新規)の
要素技術を電子情報の長期的保管のため
に組み合わせる方法を示した


無いが必要な要素技術は自分で提案した
しかしあくまでPOTは叩き台に過ぎない

2000-09-08
まだよく練られていない部分の存在
資料保存協議会セミナー#3
21
ダウンロード

Microsoft PowerPoint形式