TEIの概要
イースト株式会社
コミュニケーション事業部
渋谷 誠
[email protected]
1
TEIとは
 Text Encoding Initiative
 電子テキスト作成・交換の
ガイドライン作成プロジェクト
• SGMLのDTD を提供
• いくつかの学術団体がスポンサー
 学術文献から一般文学まで対象
 http://www.uic.edu:80/orgs/tei/
2
歴史

1988年:3団体により設立
• the Association for Computers and the Humanities (ACH)
• the Association for Computational Linguistics (ACL)
• the Association for Literary and Linguistic Computing (ALLC)
1990年6月:
 1992-93年:
 1994年5月:

TEI P1 ドラフトを公開
TEI P2 ドラフトを順次公開
P3を公式Guidelineとして公開
3
仕様はWebで公開
 仕様=ガイドライン文書
 単一の文書定義ではない
• http://www.uic.edu/orgs/tei/p3/
4
基本アーキテクチャ


ひとつのDTDを定義するのではない
Chicagoピザ方式
• 基本タグセット(ピザ生地)からひとつを選ぶ
– Prose, Verse, Drama, Speech, Dictionary, Terminology
– General base, Mixed base
• 必要なオプションタグセット(トッピング)を追加
– Linking, Analysys, fs, certainty, transcr
– names.dates, nets, figures, corpora
• カスタムDTDが完成

カスタムDTD自動生成サイト
• http://www.oucs.ox.ac.uk/humanities/TEI/pizza.htm
5
TEI-Lite
 TEIガイドラインに準拠した文書定義
 すぐに使えるDTD
 汎用的な文書を想定
 実際にはこれが広く使われている
 http://www.uic.edu/orgs/tei/p3/
6
XMLへの対応
 XMLへの対応は表明されている
 非公式のものならば既に存在する
• http://www.loria.fr/~bonhomme/xml.html
7
TEI-Liteでの文書構造の定義
8
全体構造
TEI.2
teiHeader
text
front
back
group
body
+
*
group
*
text
9
TEI文書の構成例
TEI.2
teiHeader
text
front
body
back
TEI.2
teiHeader
text
front
group
text
text
text
text
text
back
10
body
body
*
head
div component
*
+
+
div
div0
+
div1
trailer
div component
11
div<n>
div<n>
*
+
n = 1,2,3,4,5,6,7
*
div<n+1>
head
trailer
div component
div component
12
div
div
*
+
*
div
head
trailer
div component
div component
13
type属性による階層表現
<div type='part' n='1'>
<div type='chapter' n='1'>
<!-- text of part 1, chapter
</div>
<div n='2'>
<!-- text of part 1, chapter
</div>
</div>
<div type='part' n='2'>
<div n='1' type='chapter'>
<!-- text of part 2, chapter
</div>
<div n='2'>
<!-- text of part 2, chapter
</div>
</div>
1 -->
2-->
1 -->
2 -->
14
本文内容の要素(1)

ページ・ラインブレーク

• note参照
• ref, ptr
• xref, xptr
• pb, lb

強調・ハイライト
• hi, emph
• foreign, term, title

引用
• q, mentioned,
• soCalled, gloss
注

編集・校正
• corr, sic, orig, reg
• add, gap, del, unclear
15
本文内容の要素(2)

名前・日付
• rs, name, date, time,
• num, abbr, address


• teble, row, cell

書誌
– head, figDesc

翻訳
• interp, interpGrp
• bibl
– author, biblscope, date
– editor, imprint, publisher
– pubPlace, series, title
図
• figure
リスト
• list, item, label

表

技術用語
• eg, code, ident, gi
• kw, formula
16
まとめ
 学術ベースで開発
 SGMLの模範的応用例のひとつ
 DTDは比較的単純だが膨大
 カスタマイズが前提
• Chicagoピザモデル
 一般書も幅広く考慮されている
 学会などでの利用例が多い
17
ダウンロード

DocBookの概要