整理技術研究グループ月例研究会報告
電子図書館とメタデータ−神戸大学電子図書館システムを中心に−
渡邊隆弘(神戸大学図書館)
- 日時:
- 2000年7月1日(土) 14:30〜17:00
(6月分の月例研究会)
- 会場:
- 神戸大学自然科学系図書館
- 発表者 :
- 渡邊隆弘氏(神戸大学図書館)
- テーマ :
- 電子図書館とメタデータ−神戸大学電子図書館システムを中心に−
- 出席者:
- 倉橋英逸(関西大学)、村井正子(システム・デザイン)、小椋正道(京大原子炉実験所)、堀池博巳(京大大型計算機センター)、豊田麻美(インフォコム)、久保恭子、蔭山久子(帝塚山大学図書館)、太田智子(甲南学園中高図書館)、門昇(阪大法学部)、笠井詠子・吉田暁史(帝塚山学院大学)、渡辺隆弘
1.神戸大学電子図書館システムの性格
電子図書館システムの方向性を(1)基本的図書館機能をデジタル化/ネットワーク化、(2)所蔵資料を電子化して広く外部発信、(3)ネットワーク情報資源の組織化・水先案内、の3つに分けるなら、神戸大学のシステムは(2)にあたる。
その機能としては、(1)電子アーカイブの構築、(2)電子ジャーナルや2次情報データベースなど市販データベースの提供、(3)ネットワーク上の情報源の探索提供、(4)学内蔵書検索と館内案内、といった種類がある。しかしやはり(1)の電子アーカイブ構築機能が最も中心となっている。
2.電子アーカイブ構築・検索システムのコンセプト
電子アーカイブ構築・検索システムについては、すでに発表した資料があるのでこれも参照していただきたい1)。
(1)対象とする資料
対象資料は、震災関係資料、経済・経営関係資料、その他学内紀要等学内研究成果、といった種類に分けられるが、とりわけ震災関係資料に重点をおいている。震災資料といっても多岐にわたるが、図書、図書や雑誌中の記事・論文、パンフレット、等々あらゆる資料を対象としている。現在約1.9万点を収集しており、さらに日々増加している。震災関係資料の収集については下記論文を参照していただきたい2,3)。
震災資料の特色としては、1)資料媒体の多様性(図書、雑誌、パンフ・レジュメ、チラシ・ポスター、広報誌、地図、写真、音声、映像、電子媒体)、2)資料となる単位の多様性(抜粋、抜刷、切抜)、情報要求の多様性といったものがある。単位の多様性というのは、資料全体ではなく、資料の部分のみを収集の対象としている場合も多いということである。つまり抜刷、切抜や、図書中の写真、雑誌論文中の図版、といったケースがある。資料媒体の多様性と合わせて、どういう目録(メタデータ)を作ればよいのか非常に難しい。また通常の学術資料であれば、学協会等の作成した2次データベースによって多くの情報要求が満たされ、図書館の目録では物としての所在を確認するという場合が多い。しかし震災資料に関しては、2次データベースに相当するものが存在せず、今回構築した電子アーカイブが、あらゆる情報要求に応えなければならないという問題がある。特定の統計データ、写真情報などを求めるようなレファレンスも珍しくない。
(2)メタデータの重視
1)著作権の関係があり、全資料の電子化は見通しが立たない。2)メタデータ整備に十分なコストをかけて、震災関連情報のレファレンス・データベースとしての充実を図りたい。3)写真、地図などはいくら電子化しても、そのまま検索が行えるわけではない。といったことから、メタデータを重視することとした。そのために、メタデータの備えるべき条件として、資料中の章、節、図や写真なども対象とし十分精細なレベルのデータを作成する、そらら情報の単位を識別できるような階層的な把握を行う、さまざまな媒体、単位に応じた柔軟性のあるメタデータの記述要素を実現できること、という方針をうち立てた。
メタデータの基準としてはダブリンコアを採用した。
3.情報の管理と検索システム
(1)メタデータの管理
「リソース種別」を各メタデータに付与することにより、メタデータの同定と関係性を認識させている。リソース種別には、アーカイブ種別(震災文庫、学内紀要といった大きな種別)、資料種別(図書資料、雑誌資料、といった媒体別種別)、エレメント種別(シリーズレベル、資料タイトルレベル、分冊巻号レベル、といった階層的種別)の3種類がある。このうちエレメント種別が階層関係を規定するが、各メタデータの管理画面においては、MSのExplorerふう階層構造が通覧でき、自由に階層関係や順序関係を付け替えることができるようになっている。また検索における利用としては、上位の階層に属するタイトル等の文字列は、下位の階層においても検索可能となっており、いわばアップポスティング的な手法を使っている。ところが、このために上位のタイトルで検索すれば下位のすべてのデータがヒットするということが起こってしまうので、上位と下位の両方がヒットすれば、最上位のみを表示させるという仕組みを作っている。ただしこれを実現するためにはシステムにかなりの負荷がかかる。
(2)メタデータ項目の設定とデータ保持
メタデータとしてはダブリンコア15項目を使用しているが、かなりの未使用項目があり、また版や原資料の出版者など図書館目録的な独自追加項目も多く、「ダブリンコア準拠」とは言い難い状態になっている。さらに写真の撮影日付や撮影場所など、リソース種別に応じた拡張項目もある。リソース種別ごとの項目定義ファイルを外部ファイルとして持つことにより、種別ごとの表示名称や表示順序を規定している。このことにより拡張項目の追加や表示方法の変更等を自由に行うことが出来る。
検索エンジンにOpenTextを使用する関係で、メタデータはSGML方式で保持されている。ただし、入力システムはRDBを用いており、SGMLへの変換はバッチ処理である。
(4)一次情報の作成と管理
メタデータと一次情報は原則として一対一でリンクをつけている。また一次情報の物理的なページ単位ではなく、章や節といった内容の単位で一次情報ファイルを作成し、そのレベルのメタデータと対応付けを行っている。1次情報は外部ファイルとして持つので、PDF、HTML、JPEGなどそのファイル形式には特に制約はない。なお、全文検索を実現するため、検索用全文テキストはSGML形式メタデータの一部として格納している。一次情報自体をSGML記述などで構造化することは、基本的に行っていない。その代替として、精細レベルまで作成したメタデータ間の階層関係を保持することで、文書構造をある程度表現しようとしている。
(5)検索システムの特徴
・Z39.50プロトコルを採用している。検索履歴の再利用などで効果を発揮しているが、本システムでは複数アーカイブを単一のDBにおさめているので、Z39.50の大きな特徴である、検索・返戻等の文法規定による複数DB間・複数サーバ間の横断検索機能は有効性を発揮していない。
・OpenTextによる全文検索を行っている。
・類義語辞書を使用している。
・英語版検索機能を有している。
・上位階層にあたる部分のタイトルで下位階層のデータを検索できる。
4.コンテンツの現状と課題
震災資料以外では、経済経営関係資料(海事関係資料である「住田文庫」、「新聞記事文庫」)や学内研究成果の電子化を行いつつある。また震災資料については、著作権許諾体制の整備とネットワーク情報資源への対処(たとえばアーカイブ化するといった)が今後の課題である。
5.電子図書館におけるメタデータ・マークアップ言語の考察
(1)電子図書館におけるメタデータ
・全文テキストを検索するだけでは万能ではない。効率的に検索するためにメタデータは必要である。
・メタデータの定義と対象
本来メタデータはあらゆる資料と情報を対象とするはずであるが、現在議論されているメタデータは事実上ネットワーク情報資源に特化して論じられているようだ。
・電子「図書館」のメタデータ
ネットワーク情報資源では、作成者自身が作成するメタデータに頼らざるをえない側面があり、そのために簡略化したメタデータが使用される(ダブリンコア)。しかし、一方「図書館」という機能を考えた場合、情報専門家による組織化の必要性もあると思われる。その典型例として分野ごとの「サブジェクト・ゲートウェイ」作成の実践があり、またTEIのような事業における詳細なメタデータの付与事例もある。
(2)メタデータ表現の問題点
・作成の単位(書誌単位)
電子情報は物理的実体が安定していないので、NCRにおけるような「単行レベル」が簡単には認定できない場合も多い。
・全文検索と提供機能の結果として、資料の部分へのアクセスが容易となる。したがって構成レベルのメタデータを作成せざるをえない。章や節、写真といった記事、論文レベルよりさらに下位の断片へもアクセス可能となり、このレベルに対するメタデータも作成することになる。実はこのことは、電子情報にかぎったことではない。震災文庫がまさにそれであり、電子化していない資料に対しても、断片的な部分への本来は情報要求がありうるわけであり、今までそういう作業を怠ってきたということではないのか。
・記述すべきデータ項目
例えば、ダブリンコアの項目では不十分である。より詳細レベルにおける項目の標準化が求められよう。しかし、すべてのレベルを単一の規則体系に組み込む必要は必ずしもない。
・記述のシンタックス
XMLを採用したRDFの枠組みに期待がかかるが、メタデータ間の構造表現をどうするのかという疑問が残る。
(3)電子図書館におけるマークアップ言語(SGML、XML)
・メタデータのマークアップによる表現
従来のコンピュータ目録では、ISBDのエリア単位で、RDB上のフィールドとする方法が主流であった。しかしRDBでは繰り返しや入れ子構造といったことを十分に表現することができなかった。一方でMARCフォーマットがあるが、サブフィールドコードは、一種のマークアップ表現(開始タグだけで終了タグはないが)とも考えられる。
今後は、RDFにしたがったXMLによる記述の可能性を考慮する必要がある。それによって記述の表現性が高まり、より精緻なデータ要素の設定も行える。
実務的にはRDBに変換することなく、SGMLやXMLのままで直接十分な更新性能があるようなデータベースエンジンが必要となろう。
・一次情報のマークアップ表現
パターンの決まった資料(情報)ならDTD作成が可能であるが、さまざまな資料を扱う図書館において、どこまで定型的な文書構造を決めることが可能であろうか。
参考文献
1)渡辺隆弘「神戸大学電子図書館システムにおける『電子アーカイブ』の構築 『ディジタル図書館』No.16,
1999.11, p.3-11
http://www.lib.kobe-u.ac.jp/dlibdoc/dlw.html
2)稲葉洋子「震災資料の保存と公開−神戸大学「震災文庫」を中心として」 『大学図書館研究』55,
1993, p.54-64
3)渡辺隆弘「『震災文庫』のこれまでとこれから−電子図書館を中心に」『Academic
Resource Guide』No.055, 2000.2
http://www.lib.kobe-u.ac.jp/dlibdoc/arg.html
なお神戸大学図書館のホームページは下記にあります。
http://www.lib.kobe-u.ac.jp/
当発表のPower Pointファイルをご覧下さい。