整理技術研究グループ月例研究会報告

『SGMLの活用』輪読会を終えて

吉田暁史（帝塚山学院大学）

日時：: 2000年6月3日（土） 14：30～17：00
（5月分の月例研究会）
会場：: 堺女子短期大学
発表者：: 吉田暁史氏（帝塚山学院大学）
テーマ：: 『SGMLの活用』輪読会を終えて
出席者：: 堀池博巳（京大大型計算機センター）、久保恭子、前川和子（堺女子短期大学）、渡辺隆弘（神戸大学図書館）、河村奈緒美・山谷幸絵（堺女子短期大学学生）、吉田暁史

１．SGMLとは何か
　Standard Generalized Markup Languageの略で、「標準一般化マーク付け言語」と訳される。SGMLは国際規格ISO 8879(1986)として制定された。1992年には、JIS X4151「文書記述言語SGML」として制定。
２．なぜ文書を構造化・標準化して記述しないといけないのか。
　特定のハード環境やソフト環境（OSやアプリケーション）に依存せず、標準化された規約に従って、電子化文書の構造を論理的な構造に分析し記述する。レイアウト情報は記述しない。そのことによって文書の交換可能性を高めると同時に、検索や表示、印刷などの処理において、個々の文書の特性とは独立した汎用的な周辺アプリケーションの開発が可能となり、アプリケーションの共有とコストの低減を実現する。
３．文書の構造標準化は、具体的にどのような分野で適用されているか。
　企業の企画書、設計書などにおける実務的利用と、学術文献のディジタル化における利用等がある。
４．なぜ図書館情報学でＳＧＭＬのようなマークアップ言語が必要なのか。
　田窪直規氏の４月例会における論考では、「DBMSの登場→フルテキストDBMSの登場→マルチメディアDBMS」と、発展するにつれ、ドキュメンテーションにおける技法が、　（１）単なる検索→（２）オペレーション（操作）全般へと拡大→（３）メディアのメッセージを操作可能→（４）メディアのキャリヤーとメッセージを含めて操作可能、というように拡大していった。（３）の段階になると文書そのものを操作するので、文書を構造化する必要が起こってきた。しかし文書そのものの操作といっても、図書館情報学の分野においてはいったいどこまでが操作の対象なのか。テキスト研究そのものは、各主題分野ごとの領域であろう。まずは各種文書構造の分析、そして検索を中心とする操作といったことか。
５．SGML文書の構成と特徴
６．SGMLからXMLへ
　XML(Extendsible Markup Language)は、W3C(World Wide Web Consortium)のプロジェクトである。XML規格第1版は1998年2月10日にW3C勧告として承認された。
７．書誌情報とSGML(XML)との関係
　SGML(XML)は基本的に文書そのものを構造化するための記述言語であるが、文書がメタデータであっても当然扱うことができる。またSGML(XML)で記述されたオリジナルな文書の中に、メタデータを埋め込むこともできる。この場合は通常、オリジナル文書そのものの作成者がメタデータも作成する。メタデータの表現方式には、Dublin Core、Warwick Framework、Resource Description Framework （RDF）、Platform for Internet Content Selection（PICS）などさまざまあるが、この中でRDF(Resource Description Framework)は、メタデータの表現形式を構造化、標準化したものであり、XMLを用いて記述される。W3Cで制定。RDFでは柔軟性のある記述様式を行うことができる。一例として「コンテナ」という概念を用いて、従来の目録規則では表現できなかったような記述方法が行える。すなわち、あるデータ要素が、単一のデータから成るのではなく、データの群から成るとき、それら相互が(1)集合（順序なし）、(2)順序、(3)択一、の３種類に類別することができる。例えば標題紙にＡ，Ｂ，Ｃ著とあれば、Ａ，Ｂ，Ｃは順序で表現し、寄稿者間に順序がないような場合は、集合で表す。またペーパバック版とハードカバー版でISBNが異なるときは、択一を用いる。このような扱いは現在のMARCフォーマットではできないであろう。またMARCフォーマットであれば、例えばXMLで記述されたオリジナルの文書形式そのものとの互換性がないので、オリジナルとメタデータとは統合することができないし、オリジナル文書とメタデータとを同じソフトウェア環境で扱うこともできない。MARCフォーマットにおいては、MARC本体と仕様書をつきあわせて初めて解析と処理が可能となるが、標準化されたSGML形式で記述すれば、MARCそのもので処理が可能となる。したがって、将来的にはMARCフォーマットが、XMLのサブセットのような形式のものに発展していくのではないか。
８．ＴＥＩ(Text Engoding Initiative)
　主として人文科学の研究対象であるテキストデータを表現するための標準的枠組みを作成するためのプロジェクト。SGMLを採用している。1988年に国際プロジェクトとして正式発足。以下のような標準的なタグセットを文書形式ごとに用意している。
（１）コアタグセット、（２）基本タグセット、（３）付加的タグセット、（４）補助タグセット
　またコアタグセットはさらに２種類に分かれる。
（１）基本タグセットが何であれ、あらゆる文書に共通な要素を定義する部分。
（２）ヘッダー
　これらのうち、ヘッダーでは詳細な書誌情報が記載できる。記述の各要素が具体的に規定されており、古典的作品を扱うのにふさわしい内容といえる。責任表示における要素分解などISDBよりさらに詳細なところがある。
　XMLへの対応を予定している。また若干簡略にしたTEI Liteが用意され、実際にはこちらが多く用いられている。
参考文献
1)根岸正光，石塚英弘共編　『SGMLの活用』　オーム社, 1994
2)田畑孝一著　『ディジタル図書館』　勉誠出版, 1999
3)村田真編著　『XML入門』　日本経済新聞社, 1998
4)加藤博之、水野升裕　SGML/XML作成技法　『情報管理』42(9), 1999.12, p.777-789
5)福嶋慎一　電子図書館の技術　所収：『電子図書館』原田勝，田屋裕之編　勁草書房, 1999, p.141-169
6)吉岡誠編著　『ＳＧＭＬのススメ』オーム社, 1993
7)SGMLやRDF、TEIについては、当サイトのリンク集を参照
8)富士ゼロックス情報システムズ（株）ホームページにあるXML Cafeに有益な情報が多い