JEPAX 説明会
下川 和男 ・ 渋谷 誠
EAST Co.,Ltd.
1
JEPAXの目的

出版社が社内に保有する「テキスト系」
デジタルデータの標準交換フォーマット
• 対象は、文庫、新書、一般書など
• 辞書、雑誌、新聞などは対象外


各種の配布フォーマットに変換可能
Free & Open
2
JEPAXのコンセプト

シンプルなタグ
• XMLを使用→将来性、拡張性、豊富なツール
• 文書の論理構造を規定
「交換」≠「配布」フォーマット

外字の扱いを規定
• 外字の指定方法を規定、欧文外字も

国際化への対応
• Unicodeも使用可能
3
配布フォーマットへの変換
標準で以下の変換が可能(XSLフィルター)





HTML → ブラウザーで読める
Open eBook(予定)
T-Time → 出版には、Publishers Kitが必要
Book Jacket(凸版殿)
文庫DTD(大日本スクリーン殿)
• 電子書籍コンソーシアム・テキスト(交渉中)
• Net EB(電子ブックコミッティー殿、交渉中)
4
Free & Open



自由にJEPAX仕様を利用できる
誰に何の料金も支払う必要がない
Free & Openの対象は
• JEPAX仕様、JEPAXという名称
• XSLフィルターのサンプル
• HTML、T-Time、Open eBookなど
5
仕様説明
6
交換フォーマットの必要性

最終フォーマットによらず必要な作業
• ルビ、外字を探す
• 段落を区切って見出しを取り出す
• 書誌情報を作成


これらが完了後の状態で保存、交換
安心して使える共通フォーマット
• 表計算のCSV、ワープロのRTFのようなもの
7
HTMLではだめなのか?




増えすぎてしまったタグ
日本語用仕様の欠如
論理構造定義が弱い
書誌情報も必要
8
設計方針

XML準拠

簡潔さ

論理構造重視―スタイル指定の排除

変換の容易性
9
文書形式

検証済みXML文書
• DTDは仕様とともに公開
<!DOCTYPE jepax PUBLIC “-//JEPA//DTD JEPAX 1.0//JA”
“http://x.jepa.or.jp/jepax/jepax10.dtd” >

ファイルのEncoding
• Unicode(UTF-16)を推奨
• 他のEncodingも許容する
• 使用文字が外字の指定方法
• 明確なガイドラインを提示
10
全体構造

トップレベルの5つの要素
jepax
bookinfo
front
back
body
11
div要素
div
+
head
title
subtitle author
p
ol
note
+
div
pre
table
ul
dl
graphic
ブロック要素の繰り返し
12
論理構造の表現



div要素ひとつだけを使う
入れ子にして階層を表現
属性値 type = で意味を付加
•
•
•
•
•
“part”, “chapter”, “section”
“foreword”, “backword”
“appendix”, “index”, “glossary”, “toc”
“quote”, “cover”
その他任意の文字列
13
階層定義の例
<div type=”chapter”>
<head>
<title>第一章 電子出版の歴史</title>
</head>
<div type=”section”>
<head>
<title>1.黎明期</title>
<subtitle>CD-ROM辞書の時代</subtitle>
</head>
・・・
(本文)
・・・
</div>
</div>
14
ブロック要素

パラグラフ

• p

整形テキスト
• table,caption,tr,th,td

• pre

リスト
• ol,ul,li
• dl,dt,dd
表
グラフィック
• graphic, img

注
• note
15
インライン要素(1)

em
• 強調
• 属性値 rend = <文字列>で強調方法を指定
• “italic”, “bold”, “gothic”, “underline”, “sidedot”
<em rend=“sidedot”>何の料金も</em>支払う必要がない

span
• いろいろな目的で使える汎用マークアップ
• 属性値 class = <文字列>で意味を指定
<span class=”URL” >http://www.jepa.or.jp/</span>
16
インライン要素(2)

sup,sub
• 上付、下付

ref
• 参照(内部リンク)
• 属性値 idref = <IDREF>で参照先を指定
• 属性値 type = <文字列>で参照先の種別を指定
• “figure”, “photo”, “artwork”, “table”, “note”
<ref idref=”fig13” type=”figure”>図13</noteref>参照
17
インライン要素(3)

ruby,rb.rt
• ルビ
• W3C案に準拠
<ruby><rb>株式会社</rb><rt>かぶしきがいしゃ</rt></ruby>

mlg
• 割注
18
インライン要素(4)

yoko
• 縦中横
<yoko>’99</yoko>年

tate
• 和文扱いの欧文
<tate>PTA</tate>

swdir, ht, vt
• 縦横による文字列切り替え
<swdir><ht>上の</ht><vt>右の</vt></swdir>表において
19
外字

Unicodeにもない文字

正確な字形を指定したい

udc要素を使って指定
• 属性値 set=<文字列> で文字集合
• 属性値 number=<文字列> で番号
<udc set="mojikyo" number="95284"/>
20
書誌情報


Dublin Core Initiative の15要素
分離して利用されることを想定
• namespaceを使用(prefix “bi”)
• JIS1,2水準の範囲のコードに限定
•
•
•
•
•
•
•
bi:title
bi:creator
bi:subject
bi:description
bi:publisher
bi:contributor
bi:date
•
•
•
•
•
•
•
•
bi:type
bi:format
bi:identifier
bi: source
bi:language
bi: relation
bi: coverage
bi:rights
21
外字の扱い
22
文字の種類(1)


ASCII
ASCII以外の欧文文字
• 通常は表示できない

半角カタカナ
• 表示できない環境もある

JIS1,2水準
23
文字の種類(2)

Windows拡張
• 13区記号、IBM/NEC拡張漢字
• Windowsでだけ表示可能

その他のUnicode範囲の文字
• JIS補助漢字も含まれる
• Unicodeフォントがあれば
Windowsで表示可能
24
文字の種類(3)

その他の文字
• Unicodeにない文字
• あっても希望する字形と異なる場合
• 通常の文字としては表示は不可能
25
文字指定の方法(1)

通常の文字コード
• 環境によっては表示できないこともある

ISOの文字名称
• 欧文のみ
• &aacute; &uuml;
26
文字指定の方法(2)

UCS文字番号
• XMLの仕様で規定されている方法
• &#x3231;

<UDC>タグ
• JEPAXで規定した方法
• <udc set="mojikyo" number="47268" />
27
JEPAXの指針

3つのレベルのガイドライン
• 完全Unicode環境用
• Windows環境用
• 汎用環境用

相互変換は可能
28
表示環境と文字指定
表示環境
Encoding
Unicode
Windows
汎用
Unicode
ASCII
非 ASCII 欧文
半角カタカナ
JIS1,2 水準
Windows 拡張
上記以外の Unicode
上記以外
文字コード
Unicode,
Shift-JIS
文字コード
Unicode,JIS,
Shift-JIS,EUC
文字コード
文字コード
ISO 文字名
ISO 文字名
文字コード
文字コード
UCS 番号
文字コード
文字コード
文字コード
文字コード
文字コード
UCS 番号
UCS 番号
UCS 番号
UCS 番号
<udc>タグ
<udc>タグ
<udc>タグ
29
ツール紹介とデモ
30
XML Notepad


XMLエディタ
Microsoftがβ版公開中
• http://msdn.microsoft.com/xml/notepad/intro.asp

日本語が入力できない
• 表示だけならできる

DTDを指定して文書構造の検証も可能
31
iHTML

XSLTプロセッサ
• XSLファイルで変換方法を指定して、XMLファ
イル同士を変換

インフォテリアがβ版公開中
• http://www.infoteria.com/jp/download/index2.html
32
Internet Explorer 5.0


XML対応ブラウザ
Microsoftが無償提供中
• http://www.microsoft.com/windows/ie_intl/ja/default.htm

ただの XML ファイル
• 構造解析してツリー表示

XSLファイルを指定したXMLファイル
• XSLに従ってHTMLに変換して表示
33
今昔文字鏡



9万字の文字を収録、分類
エーアイ・ネットの製品
フォントは公開
• TrueTypeとGIFのビットマップ

文字鏡研究会
• http://www.mojikyo.gr.jp/index_j.htm
34
まとめ
35
お願いしたい事


1.0版策定へのご意見
出版社、印刷会社殿へ
• JEPAXコンテンツの試作

ビュアー会社殿へ
• フィルター開発への協力
36
今後の議論

メーリングリスト(ML)を使用
• 対象:JEPA+EB、EBJ、EPWING参加会社
• http://x.jepa.or.jp/jepax/ml.htm

個別メールも歓迎
• [email protected]

JEPA委員会で、9月中に仕様を決定
37
ダウンロード

Power Pointファイル