TOP > 月例研究会 > 2003 > / Last update: 2008.1.1

整理技術研究グループ月例研究会報告

震災デジタルアーカイブにおける情報の蓄積と検索

−メタデータに関わる諸問題

渡邊隆弘(神戸大学図書館)


日時:
2003年9月20日(土) 14:30〜17:00
会場:
大阪市立浪速人権文化センター
発表者 :
渡邊隆弘氏(神戸大学図書館)
テーマ :
震災デジタルアーカイブにおける情報の蓄積と検索−メタデータに関わる諸問題
出席者:
石井道悦(神戸大学図書館)、川崎秀子(佛教大学)、河手太士(大阪樟蔭女子大図書館)、田窪直規(近畿大)、堀池博巳(京都大学術情報メディアセンター)、村井正子(京都精華大情報館)、守屋祐子(千里文化財団)、安威和世(梅花女子大図書館)、山野美贊子(大阪府大総合情報センター)、吉田暁史(帝塚山学院大)、渡邊隆弘

1. はじめに−電子図書館におけるメタデータ

・電子図書館においても、全文検索の信頼性の問題やマルチメディア情報の存在から、メタデータの必要性は一般的に理解されている。ただし、現在多くの図書館でデジタル化されている資料は歴史的貴重資料がほとんどで、検索性能より資料の再現性がより重視されること、もともと貴重資料の数は限られていること、本格的な利用者は専門家であること、などから、メタデータや検索システムは軽視されている。
・本発表では、震災デジタルアーカイブ(神戸大学附属図書館)におけるメタデータの取扱いについて報告する。本アーカイブは、現状ではまだ数少ない、現代資料の本格的なデジタル化であり、開設当初からメタデータによる検索を重視している。
URL: http://www.lib.kobe-u.ac.jp/eqb/
・メタデータについて「作成の単位」「意味的側面」「構文的側面」の3側面に分けて説明し、さらに検索システムの問題を述べる。3側面の枠組は、以下の文献で提起したものである。
 渡邊隆弘「図書館目録とメタデータ」『図書館界』53(2), 2001.7. pp.126-133.

2.「震災文庫」と震災デジタルアーカイブ

・デジタルアーカイブの母体は、震災後まもなく収集を開始した「震災文庫」のコレクションである。
 1995.1  阪神・淡路大震災
 1995.4  資料収集の開始
 1995.10  震災文庫ホームページ開設。目録検索提供(隔週更新)
 1995.10  神戸大学人文・社会科学系図書館で「震災文庫」一般公開
 1998   チラシ・ポスター類のデジタル画像化開始
 1999.7  「神戸大学電子図書館システム」本格稼働(NTT西日本株式会社による)
      「電子アーカイブ検索」システム(日次更新)、一次情報デジタル化の本格的展開
 2003.2  「電子図書館システム」リプレイス(インフォコム株式会社による)
・震災文庫の資料収集件数は、約33,000件(約19,000タイトル)にのぼっている。媒体・形態を問わない網羅的資料収集を行っており、震災後8年を経てなお活発な収集活動を続けている。資料は膨大に及び額面通りの「網羅的」収集が実現できているわけではない。
・震災文庫資料の特性を一言でいうと「多様性」である。
(1)資料媒体の多様性。マルチメディア性もあるが、どちらかというと「紙媒体」の多様性(チラシ・レジュメ・パンフなど)が大きい。
(2)資料となる単位の多様性。抜刷、抜粋、切抜の存在や、資料中の一部分だけが震災関連資料である場合など。
(3)内容・形式の多様性。記録を主目的とする資料に限らないこと、作り手が多岐のため「編集」レベルが一定しないこと、など。
・「震災デジタルアーカイブ」は1999年に導入された「神戸大学電子図書館システム」の中核事業として本格的に開始された。メタデータの整備と一次情報デジタル化の両面において、段階的なコンテンツ整備を進めている。
・情報検索の観点から、震災デジタルアーカイブに求められる機能要件は、上記(「資料媒体」「資料となる単位」「内容・形式」)の多様性を適切にコントロールして提供することである。また、他の二次資料が貧弱な分野のため、利用者の情報要求の多様性に応えるレファレンスデータベースとしての役割も求められる。
・震災デジタルアーカイブにおける検索機能の特徴は次の通り。
(1)メタデータを介した検索であること。全文テキスト化資料もあるが、基本はメタデータ検索である。
(2)資料中の一部分を独立して検索可能であること。資料1点の全体ではなく、記事・章節や写真などを独立して検索・表示する。入力キーワードに合致した箇所をピンポイント検索できる。情報の粒度を各データに明示している。
(3)一方で、資料の「目次」にあたる「階層型表示」を提供していること。資料構造の全体(ツリー構造)をインデントつきで列挙提示する。
(4)比較的多数のメタデータ項目を持つこと。資料の種類に対応したメタデータ項目(写真における「撮影条件」等)もある。

3.震災デジタルアーカイブにおけるメタデータ

3.1.メタデータの作成単位
・ピンポイント的な検索・表示を行うため、構成要素ごとに独立したメタデータセットを作成している。具体的な表現方法としては、前世代システム(〜2003.1)では独立レコード、現行システム(2003.2)では1資料中でのXMLデータ表現をとっている。
・1資料から、多数のメタデータセットを重層的に作成し、個々のメタデータセットに一次情報をリンクしていく形をとる。「資料タイトル」−「分冊巻号」−「記事・著作」といった階層で作成し、写真や図表などさらに細かい単位にも作成可能である。
・個々のメタデータセットは、検索システム上等価の扱いで、検索結果一覧等において独立表示される。従って表示を自己完結させるだけのデータ項目を各が持っている(例:雑誌の記事レベルにも出版事項データ)。

・様々な情報単位のメタデータセットが混在するわかりにくさもあるため、検索結果冒頭に「震災/図書/記事・論文」のように種類を明示するが、種類管理情報として、各メタデータセットに3コードからなる「リソース種別」を付与している。
(1)「アーカイブ種別」・・・資料群の種別。震災資料ではすべて同一である。
(2) 「資料種別」・・・・・対象資料の媒体種別。外形式的なもの(「図書」「コンピュータファイル」)と内形式的なもの(「写真」「地図」)をともにふくみ、衝突の場合は内形式を優先する(地図帳、電子地図は「地図」)。
(3)エレメント種別・・・構造上のレベル。資料中の、メタデータの位置づけを示す。構造上のレベルのみを表すもの(「シリーズ」「分冊巻号」「章節」)と当該構成部分の資料種別ともいうべきもの(「写真」「図表」)が混在している。
・リソース種別の管理によって、(1) 検索結果として提示されるメタデータレコードの資料媒体・情報を明確に提示する、(2)メタデータ詳細表示の際に、リソース種別に応じて最適表現を行う、(3)あらかじめ検索対象を特定種類レコードに絞り込める、といった機能が実現している。

・資料の文脈・構造を再現するツリー構造表示(「階層型表示」)の実現のため、階層構造情報の管理を行っている。論理的には、無限・自由な木構造を表現できる仕組みとなっている(具体は3.3で後述)。
・入力においては、階層構造を視覚的に管理できる専用インターフェースを用いている。

・資料の構成要素に踏み込んだ目録の必要性は以前から指摘されている。「日本目録規則」には構成書誌単位の規定があるし、ISBDにもガイドラインレベルながらISBD(CP)が存在する。また、WebcatPlusなど目次情報を活用した実用システムも出てきている。こうした動きと比較して、震災デジタルアーカイブのアプローチの独自性は次の2点である。
(1) レベルごとに独立したメタデータセットを作成すること。各構成要素を明確に区別したデータ記述を行うことで、部分資料のピンポイント提示、検索精度の保持が実現される。
(2)独立して扱われる構成要素が、完結的な情報単位(「著作」など)にとどまらないこと。著作中の章・節や文章中の図表などの細かな単位も、アクセス可能性が考えられれば、メタデータセットが作成されうる。本来それ自体では完結していない小さな情報が問題解決の手がかりになる場合もあること、利用者に必要と考えられる単位は必ずしも固定的ではないこと、電子情報の強みを十分発揮させるには構成要素の明確化が必要なこと、からこうしたアプローチをとっている。

3.2.メタデータの意味的側面
・必要十分なデータ項目の設定を行っている。システム導入にあたって、Dublin Core(Simple DC)をベースに検討を開始したが、最終的にはかなり多くの項目を設定することとなった。多様な媒体・情報単位からなる震災資料のそれぞれを適切に表現することができるよう、標準の鋳型に敢えてはめこむまず、必要な項目の洗い出しを行った。
・ただし、システム導入当初、DCの各エレメントの意味定義が必ずしもはっきりしなかったことから、DCとのマッピング不十分によって項目が増加している面もある。

・データ項目設定の柔軟性を保持する設計となっている。多様な資料・情報単位が含まれることから、導入初期において必要なデータ項目を洗い出すことの困難性とデータ項目名称の表示の問題(情報の種類によって適切な表現が異なる)を勘案して、そうした設計をとっている。
・具体的には、DTD上であらかじめ未使用のデータ項目を多数用意しておき、実際上の項目定義を外部ファイルで維持している。項目定義はリソース種別ごとに定義可能で、存在しうるデータ項目、出現順序、表示ラベル名称、検索対象有無などを設定することにより、 検索・表示系のさまざまな条件が操作可能である。

・主題情報は大きく立ち遅れており、統制語彙ツールによる入力は行われていない。
・その中で、空間情報(地名情報)のみは統一的な入力を行っている。現行システム(2003.2〜)ではGIS(地理情報システム)サーバを導入し、メタデータ情報と連動した地図からのアクセスを実現している。

3.3.メタデータの構文的側面
・全文検索エンジンにOpenText(カナダ、OpenText社)を使用している。OpenTextは、SGMLまたはXML形式データを標準としている。

・階層構造情報の管理は2003年のシステム更新で手法が変更された。
・前世代システム(1999〜2003.1)では、構成要素ごとに独立したメタデータレコードを作成し、各メタデータレコードに「ツリー内階層パス情報」を持たせていた。「階層パス情報」はツリー構造上(=1資料内)での自らの位置を示すコード情報であり、メタデータ間の上下関係に加えて、同位メタデータ内での順序関係をも示す。論理的には、無限・自由な木構造を表現可能である。
・現行システム(2003.2〜)では1資料(1ツリー)1レコードとし、XML記述で構造表現を行っている。ただし、検索処理を高速化するため、別途「階層パス情報」も生成して保持している。
・前世代システム(1999〜2003.1)では、メタデータ項目はSGML形式記述であった。SGMLでは不定繰り返し表現が容易であるなどの利点がある。ただ、要素間の階層的構造化(タグの入れ子構造)は限定的にしか行われていない。例えば「Creator」に、名前・役割表示・所属を独自の区切り記号で入力しているが、本来は別タグにして入れ子表現するべきものである(構造化しないことによる検索上の問題もある)。構造化がなされていない最大の理由は、メタデータ入力システムの安定性のため、入力時にはRDBMSにいったん格納しているためである。現行システム(2003.2〜)ではメタデータ項目はXML記述となったが、データ項目の階層的構造化の問題は解決されていない。

3.4.一次情報の組織化
・XML等による全文テキストの構造化は全く行っていない。多様な震災資料に対して、有効なDTDの定義は不可能と考えられるためである。従って一次情報の検索は、文書構造を反映しない単純な全文検索となり、メタデータ検索の補完と位置づけている。
・資料の構成要素ごとに重層的にメタデータセットを作成し、階層構造管理を行うことは、
一次情報組織化について、一定の代替機能を果たしていると認識している。

4.メタデータの階層構造に関する検索の問題−特に論理積の扱い方について

・資料内の各構成要素を独立したメタデータセットとして検索対象にすると、階層レベルをまたがった検索の問題が生じる
 例)神戸大学の被災状況(資料タイトルレベル)
   第1章 概説 (章・節レベル)
   第2章 附属病院の活動(章・節レベル)
・上記例において、「附属病院 AND 被災」で2章のデータがヒットする必要がある。2章にはキーワード「被災」は含まれないが、上位メタデータは下位を包含しているからである。すなわち、情報の下位継承性を考える必要がある。
・一方で、情報を下位継承した場合に、「神戸大学 AND 被災」で全章のデータがヒットする必要はなく、資料タイトルレベルが代表でヒットすればよい。すなわち、返戻するメタデータセットを考慮し、必要十分なデータを返戻する仕組みを考える必要がある。

・前世代システム(1999〜2003.1)では、上位メタデータのタイトルを下位メタデータにあらかじめ埋め込んでおき、そのうえで個々のメタデータセットを独立して検索していた。埋め込まれるのがタイトルだけであるという不十分さはあるが、直列的な階層関係にあるメタデータ群を一体のものとして論理積検索し、それによってピンポイントの返戻を行うことを意図していた。また、直列関係にある複数データがヒットした場合は上位のものを優先返戻していた。

・依田・大月ら(神戸大学国際文化学部)の研究による問題点の指摘がある。
   依田平、大月一弘、森下淳也、清光英成「デジタルアーカイブに対する効率的な検索の提案 : 神戸大学電子図書館システムを例として」『人文科学とコンピュータシンポジウム論文集』情報処理学会, 2001.12. pp. 259-266.
 この論文は、情報工学研究者の立場から効率的な検索手法を論じたもので、資料構造を構成要素からなるツリー構造として表現する手法を「種別やメディアを問わずに網羅的に資料が収容」されるアーカイブに有効であると評価したうえで、震災デジタルアーカイブの論理積検索方式の問題点を指摘している(前世代システムを検討対象としている)。
指摘(1) 震災デジタルアーカイブの検索方式は各メタデータセットへの「単純検索」で、階層レベルをまたがった検索に漏れが生じる。直列的関係にあるメタデータ群を一体のものとする「直列AND検索」が必要である。
 → 運用者の立場としては、現行システムの志向は「直列AND検索」と考えている。ただし、上位からの継承に不十分さがあるのは確かで、「単純検索」ととらえられても仕方がない。
指摘(2)「直列AND検索」だけでは検索漏れとなる場合がある。同一資料中での共出現をとらえる「並列AND」検索が有効な場合もある。論理積検索に投入される複数キーワードには、次の2つの種類がある。
 A.修飾関係にある場合(A「の」B)
   例)西宮市 and 避難所  → 直列AND検索が有効
 B.並立している場合(A「と」B)
   例)西宮市 and 芦屋市  → 並列AND検索でしか拾えない
 →運用者の立場としては、「並列AND」はノイズの可能性が高いとして意識的に排除してきた部分である。これまでは上記A.の場合、別のいいかたをすれば複合主題として構文表現可能な2語の組み合わせを想定してきた。しかし、アクセスログを見ても、並列と思われる入力が見られ、並列AND検索も提供を考慮する必要がある。ただし、わかりやすいインターフェース(使い分け)の問題や、資料による各構成要素間の関連性の差(例えば、雑誌では図書に比べて各論文間の関係性は希薄)への考慮といった問題がある。
指摘(3) 返戻する構成要素の選定が不適切な場合がある。現行方式は「トップダウン方式」(上から見ていって、適切な位置で)であるが、下位の大部分がヒットする場合など、上位に代行させる「ボトムアップ方式」が有効な場合もある。
 →確かにその通りである。また、並列AND検索を取り入れると、現行方式だけでは不可能で、新たなルールが求められる。

・新世代システム(2003.2〜)では、検索に一定の改善を行った。
・4種類の論理積検索を実装した。
(1)単純AND 「仮設 AND 支援」。同一メタデータセット(ノード)に共出現
(2)直列AND 「仮設 * 支援」。直列構造をなすメタデータセット群に共出現
(3)親戚AND 「仮設 & 支援」。同一資料内の共出現(並列AND)。距離の近い組み合わせで返戻レコードを決定
(4)兄弟AND 「仮設 / 支援」。同一の親をもつメタデータセット群中の共出現
カッコによる組み合わせ記述も可能である。なお、初期設定は「直列AND」である。
・上位メタデータセット中のデータを下位継承する取扱いを徹底した。実際に値を埋め込まなくとも、継承して表示する仕様としている。