TOP > 月例研究会 > 2000 > / Last update: 2008.1.1

整理技術研究グループ月例研究会報告

『XML入門』輪読会を終えて

渡邊隆弘(神戸大学図書館)


日時:
2000年11月25日(土) 14:30〜17:00
会場:
難波市民学習センター
発表者 :
渡邊隆弘氏(神戸大学図書館)
テーマ :
『XML入門』輪読会を終えて
出席者:
倉橋英逸(関西大学)、堀池博巳(京大大型計算機センター)、門昇(阪大)、村井正子(システムズ・デザイン)、蔭山久子(帝塚山大学学園前キャンパス図書館)、田窪直規(近畿大学)、太田智子(甲南学園)、北西英里(大阪府盲人福祉センター)、吉田暁史(帝塚山学院大学)、渡邊隆弘

1.XMLの概要と特徴
 1998.2にXML1.0が制定された。特徴として、(1)ワープロ文書等と異なり、文書構造をレイアウト情報と分離、(2)HTMLにはない自由なタグ設定による柔軟性と応用性を持つ、(3)DTDなしの文書を許すなどSGMLと比べて簡略化、(4)SGMLにはなかったURL使用などの新機能を持つ、といったことがあげられる。XMLはHTMLやSGMLなどと同様、マークアップ言語である。
 HTMLの特徴は使用できるタグがあらかじめ定義されている(DTDが固定されている)ことにある。HTMLはよく文書構造とレイアウト表示構造とが混在しているといわれるが、HTML4.0では仕様の推奨としては、構造と表示の分離が建前となっている。XMLはDTDにより文書構造を独自に設定するので、HTMLに比べ構造表現能力の自由度がより高まっている。
 XMLはSGMLと比べて、(1)SGML宣言の簡略化、(2)DTDが必須でない、(3)スタイル記述言語も簡略に行える、といった簡略化が行われている。また(1)URLの使用、(2)XLLによるリンク記述、(3)名前空間の使用、といったSGMLにはない機能が付加されている。SGMLにない機能があるのに、「SGMLのサブセット」といえるのだろうか。

2.勉強会での議論から
・DTDの意義と必要性
 XMLではDTDを省略して許されるのはなぜかという議論があった。『XMLの完全解説』(技術評論社, 1998)p.38以下によれば、省略可能の意味合いは、「DTDそのものがなくてもよいのではなく、毎回の処理に必須ではないということ」だと思われる。
 DTDで文書構造の定義を行ったからといって、各要素の意味定義はなされていない。しかし現実には意味定義なしにアプリケーションの設計をすることはできないわけであり、異なる機関間の意味定義のすりあわせや標準化が必要となろう。
・データベース演算
 関係データベースでは、選択・射影などの関係演算が確立している。一方、XMLで記述された文書は、どのような演算の仕組みがあるのかがはっきりしないと、有効な設計ができない」という疑問があったが、問い合わせ言語として、XQL、XML-QLなどが提案されている。

3.電子図書館とXML
・一次情報(全文テキスト)のXML表現
 XMLで全文テキストを表現することにより、要素単位による検索や抽出、各要素の性質に着目した検索、要素間の関係を考慮した検索、といったことに役立つと考えられ、結果として検索精度が向上するであろう。このとき、何を要素として認識・識別するのかという問題が起こるが、(1)書式として明示された単位(章、節、項、段落)、(2)より内容に踏み込んだ単位(結論、実験対象、先行研究)、(3)言語学的な単位(文、文節、単語)等の分析が考えられよう。いかにして、どこまで分析するかは、コストと効果とのバランスの問題であろう。
 文書をXMLを用いて記述するためには、DTDを定めなければならないが、DTDを決定するためには、要するに「著者や編集者の文書作成に対する自由度をある程度犠牲にすること」なしには実現できない。多様な資料をあるがままに受け入れる図書館では、DTDを統一することは困難である。DTDの統一なしにできることは、(1)分割された要素の認識、(2)要素間の関係(階層関係)の把握、である。これだけでも、ある種の検索には役立つであろうが、多様な文書を扱うためには、結局メタDTDのようなものが必要になるのではなかろうか。
・メタデータのXML表現
(1)RDF(Resource Description Framework)
 RDFは種々のメタデータを記述する枠組みであり、XML構文を用いる。メタデータにおけるRDF(XML)の採用は、従来の目録の枠組みと対比すると、MARCフォーマットの外形式あるいは、目録データベースで実装されるDB構造のようなものに相当する。
(2)表現性能の向上
 データ要素の不定繰り返しと、入れ子構造が無制限に表現できる、データ要素のより詳細な単位での識別が可能になる、といったことがある。RDMBSではこういった複雑な表現は現実には難しく、またMARCではサブフィールドの中にさらにサブフィールドを持つということができないので、複雑・詳細な構造を表現することには限界がある。
(3)典拠コントロールとリンク機能
 従来のリンクシステムは、各ファイルが同一システム内にあることを前提として作られていたが、XMLではURLの利用や、XPointerによるアドレッシング指定により、外部の典拠ファイルにダイナミックにアクセスすることが可能になるようであり、典拠コントロールの可能性が拡大すると思われる。
(4)複数規則の組み合わせ
 名前空間の使用により、メタデータの一部分に別のメタデータ表現規則を明示的に適用することができる。
(5)意味的なレベルの表現性能(内形式)
 しかし、いかにXMLでメタデータを表現しても、目録規則やMARCフォーマットの内形式にあたる部分は別の問題であり、例えばISBDのエリアごとに構造を表現しただけでは、何も新しい世界は見えてこない。

参考文献:村田真編著『XML入門』(日本経済新聞社,1998)