TOP > 月例研究会 > 2001 > / Last update: 2008.1.1

整理技術研究グループ月例研究会報告

図書館目録とメタデータ・マークアップ言語

渡邊隆弘氏(神戸大学図書館)


日時:
2001年1月20日(土) 14:30〜17:00
会場:
難波市民学習センター
発表者 :
渡邊隆弘氏(神戸大学図書館)
テーマ :
図書館目録とメタデータ・マークアップ言語
出席者:
堀池博巳(京大大型計算機センター)、太田智子(甲南学園)、蔭山久子(帝塚山大学学園前キャンパス図書館)、村井正子(システムズ・デザイン)、尾松謙一(奈良県立図書館)、光斎重治(愛知大学)、前川和子(堺女子短期大学)、前畑典弘、田窪直規(近畿大学)、笠井詠子・吉田暁史(帝塚山学院大学)、渡辺隆弘

1.はじめに−電子図書館、インターネットと整理技術−
 図書館業務がコンピュータ化された結果、利便性は高まったが、2次情報がコンピュータ上に移っただけで、1次情報は従来どおりのままであり、伝統的な目録作業と本質的な違いはない。ところがディジタル化された1次情報が出現し、全文検索が可能になって、2次情報の絶対的な必要性が揺らいできた。またインターネット上の情報資源を対象とした検索も広く行われるようになり、ネットワーク上の情報資源のような、従来の図書館資料の枠を越えたような範囲まで考えなければならなくなってきた。そういった流れの中で、メタデータという概念を用い、目録や書誌情報などを広義にとらえる必要が起こってきた。この発表では、「電子図書館資料のメタデータ表現はどうあるべきか」「電子図書館を視野に入れたとき、図書館目録のデータ表現はどうあるべきか」という問題意識を基本としたい。
2.メタデータとマークアップ言語−基本的理解−
 研究グループでは、2000年の研究テーマとしてメタデータとマークアップ言語を取り上げたが、その内容に沿う勉強会を17回、月例研究会を11回開いてきた。その中で、メタデータ、Dublin Core、TEIヘッダ、マークアップ言語、SGML、HTML、XML、RDFといったことばが出てきたが、それらに関する基本的なことがらをまとめてみた[まとめは省略]。
3.電子図書館とメタデータ
(1)電子図書館への取組み
 図書館資料(パッケージ資料)のディジタル化、インターネット情報資源の図書館資料への取り込み、といったことが進展し、今後ますます電子図書館コンテンツの比重は大きくなっていく。また当面従来の印刷資料も残っていく。このように既存資料とディジタル化資料を統合的に扱い、提供していくことが必要となる。したがって、電子図書館においては、新たなディジタル化資料だけの組織化ではなく、既存の資料を含めて、全体を対象とするような組織化の枠組みを考える必要がある。
(2)メタデータの必要性
 図書館で扱うリソースが全文ディジタル化されていても、下記のような理由から全文検索だけでは不十分であり、メタデータもやはり必要となる。
1)文字以外の情報表現をとるリソースも同時に検索できることが望ましい。
2)全文検索では十分な精度や再現率が保証されない。
3)図書館では多様な資料が存在し、1次情報全体に適用できるようなDTD(資料構造を表現するためのタグ表示)が困難である。それゆえ全文検索では、文書の構造を利用した精緻な検索は期待できない。
(3)電子図書館資料と目録規則
 電子図書館資料においては、媒体と内容の結びつきが強固でない、情報表現が多様である、内容変更・改訂が容易、といった特徴がある。こういったことに対応するため、ISBD(ER)やNCR、AACR改訂の動きがある。そこではメタデータを作成する情報単位が問題となる。電子図書館資料では、小さな部分へのアクセスが可能であるため、より細かな単位で記述を作成した方がよい、ということを改訂に際して考慮しないといけない。
(4)電子図書館時代の目録・メタデータ
 従来の目録は、意味レベルと構文レベルの分離があいまいであった。ISBDや目録規則は、意味レベルを主にしながら区切り記号など構文レベルの規定もあったし、MARCフォーマットでは、構文レベルを主にしながら、フィールド定義といった意味レベルのことも盛り込まれていた。これらは分けて考えた方が合理的である。そこで、意味レベル、構文レベル、記述の単位と関係構造の表現、という3つのレベルに分けて考察する。
4.意味レベルの考察(メタデータにどのような情報を記述するか)
 データベース上でどのような項目(フィールド)を設定し、入力するかという問題である。
(1)必要の観点
 記述対象の広がりにより、より多くの項目が必要となる。記述対象の単位、資料の多様性という両面からなるべく詳細なデータ要素の識別が必要となる。またコンピュータ処理という観点からも、要素の詳細な識別が有効である。
・標準化の観点
 従来の図書館の枠を越えた情報交換・情報検索の必要性が生じている。またネットワーク情報源全般を図書館で完全に組織化するのは不可能である。したがって図書館の世界外にも通用するような世界標準、たとえばDublin Coreなどを意識することになる。「今後はDublin Coreで標準化を図ろう」とする考え方もある。
(2)Dublin Coreの評価
 個々の情報作成者でも作れるよう配慮されている。すなわちコアエレメントだけを定義し、かつすべての項目がオプションである。これは情報専門家たる図書館が作るメタデータ標準としては不十分である。そこで拡張可能性の問題が出てくるが、各コミュニティ内の合意のもと、エレメントを追加することは可能である。またQualifierによるサブエレメントを定義することもできる。しかし、その際構造を持つ値を表現するQualifier設定を否定した(Dumb-Down原則)ことにより、詳細な拡張に制約が設けられることになった。
 以上のような問題点を持ちつつも、Dublin Coreは、図書館を越えた広いレベルでの情報交換には有効であろう。
5.構文レベルの考察(目録・メタデータの記述構文はどうあるべきか)
(1)現在の目録における構文
 目録規則ではISBDの区切り記号が構文を規定している。交換用MARCフォーマットでは、タグやインディケータ、サブフィールド識別子が、内部フォーマットでは、おおむねRDBMSが、それぞれ構文部分を受け持つ。しかし、こういった構文表現では、繰り返しや入れ子構造を持った、複雑なデータは表現が困難である。例えばMARCにおいては、サブフィールドで2階層目のデータ識別が行えるが、要素の終わりを示すタグがないので、3階層以上の表現は無理である。
(2)マークアップ言語(XML、SGML)
 マークアップ言語を用いることにより、より詳細、柔軟な表現が容易に実現できる。どこまで詳細に表現するかは別問題であるが、データ構造の表現に際し、少なくとも構文的制約から逃れることができる。構文的制約が、意味レベルでの要素設定を拘束することもありうるのである。またマークアップ言語を用いれば、図書館の枠を越えた標準性が得られるという利点もある。ただし、この柔軟な表現能力をどこまで使用するかは、意味レベルでのメタデータ規則に依存する。ISBDのエリアごとというおおざっぱな単位でXML表現しても、あまり意味はないということになる。しかし、本タイトル、タイトル関連情報、並列タイトル、並列タイトル関連情報、といったものが複雑に組合わさるような場合、現在はその構文規則を表現するのが非常に煩雑であるが、例えばXMLのDTDを用いるならば、単純な構造で表現することが可能となる。
(3)RDFの評価
 RDFは特定のメタデータ規則に束縛されないので、メタデータ表現の汎用的な枠組みとして普及していく可能性がある。また名前空間の使用により、複数のメタデータ規則を組み合わせることが可能となる。ただし、実際の表現能力はメタデータ規則に依存することになる。
6.記述の単位と関係構造の表現
(1)基礎書誌単位の再考
 従来の目録規則では、書誌単位の種々のレベル中、「物」のレベルに基盤をおく「基礎書誌単位」が中心であった。しかし、電子図書館資料では、「物」というレベルを考える必要がなく、必要な部分だけを検索・抽出して利用することが自然である。したがって、物から離れて内容に則した情報単位を基本としたほうがよい。どの単位が必要かは、人により、場合により固定的ではない。その時々の必要に応じた切り口で、より細かい単位の情報(例えば文章中の図表など)が必要な場合もある。したがってメタデータもそういったレベルに対応する必要が出てくる。こういったより小さな部分へのアクセス可能性は、本来は電子図書館資料に特有のことではなかったのではないか。図書でも資料の一部分への情報要求はあるはずであり、NCRにおける書誌単位は、物の単位と混同しないように設定すべきではなかったのだろうか。
(2)オブジェクト間の関係構造表現
 これについては、階層構造、水平的な各種リンク構造が考えられる。電子図書館では、さまざまな情報単位が交錯することにより、またさまざまなヴァージョンが発生することにより、関係構造の表現が大きな問題になる。例えばDublin Coreでは、Relationエレメントでこれを表現する。またRDFでは、プロパティ値として別のリソースを示すことが可能である。図書館における目録でも、こういった構造表現に対する枠組みの探求が必要である。
(3)典拠管理とURI
 RDFでは、プロパティ値として別のリソースを示すとき、基本的にURIを用いて識別する。電子図書館においては、図書館以外で作られたメタデータとのリンクが必要となるかもしれないが、現状ではISBNもURLも識別性が不十分である。確実なURIが求められる。
7.おわりに−メタデータ標準化と図書館目録−
(1)メタデータ標準化の必要性
 電子化資料は基本的に、重複作成する必要はない。したがってディジタル化された資料の作成は、自ずと分散協調型になる。各機関でメタデータを作成することになり、その標準化の意義は非常に大きい。
(2)単一の規則に則ってすべての機関が作業することになるか
 扱う資料・情報が著しく多様になっていることを考えると、これは現実的ではなかろう。資料種別ごとの専門規則を融合させていくべきではなかろうか。
(3)データ交換の範囲とメタデータ規則の精度
 インターネット世界全体でのデータ互換性を考えると、用いることのできるメタデータ規則は現時点ではDublin Coreしかないであろうが、Dublin Coreを精緻化するのは困難である。データ交換の範囲と適用するメタデータ規則との間には、トレードオフの関係がある。交換の範囲が狭ければ精緻な規則が適用できるし、広ければ緩やかということになろう。交換の広さの程度に応じて、適切な標準化を行うことになろう。
(4)いまなすべきこと
 電子図書館資料のメタデータ規則に関しては、その資料・情報に必要十分なデータ記述ができるものを適用(または創造)すべきである。標準化を理由に自己規制する必要はない。また現在存在する規則にとらわれるべきでもない。必要十分な詳しさと論理的な構造があれば、フィルタをかけてデータ交換することができる。以上の観点を考慮した上で、目録規則、ISBD、MARCフォーマットなど、図書館目録は今後根本的に考え直すべきではなかろうか。