TOP > 月例研究会 > 2003 > / Last update: 2008.1.1

整理技術研究グループ月例研究会報告

国立国会図書館のインターネット上の情報資源に対する取り組み

河合美穂(国立国会図書館関西館)


日時:
2003年4月26日(土) 14:30〜17:00
会場:
大阪市立総合生涯学習センター
発表者 :
河合美穂氏(国立国会図書館関西館)
テーマ :
国立国会図書館のインターネット上の情報資源に対する取り組み
出席者:
江上敏哲(京都大図書館)、蔭山久子(帝塚山大図書館)、笠井詠子(帝塚山学院大)、門昇(大阪大)、川崎秀子(佛教大学)、木下みゆき(大阪府立女性総合センター)、光斎重治(愛知大)、佐久間禮義(桃山学院大学生)、高辻亜由美(奈良県立図書館)、高畑悦子(追手門学院大情報教育センター)、田窪直規(近畿大)、藤間真(桃山学院大)、浜田行弘(関西学院大図書館)、堀池博巳(京都大学学術情報メディアセンター)、前畑典弘、村井正子(京都精華大図書館)、安威和世(梅花女子大図書館)、吉田暁史(帝塚山学院大)、渡邊隆弘(神戸大図書館)、河合美穂

1.国立国会図書館のインターネット情報資源への取り組み

・国立国会図書館では、「手段」としてインターネットを用いる情報サービス(NDL-OPAC、遠隔複写、資料デジタル化など)に加えて、インターネット資源を「目的」とする情報サービスを進めている。
・ウェブ上の情報資源を収集し蓄積するウェブ・アーカイビングは、諸外国でも国立図書館等様々な組織で行われている。国会図書館では昨年国際シンポジウムを開催した(2003.3に記録集刊行)。
・ウェブ上の情報資源は、「表層ウェブ(surface web)」と「深層ウェブ(deep web)」に分類できる。静的なHTML等で構成されロボット収集が可能な部分が「表層」、CGI等でアクセスの都度動的に生成され容易に収集しがたい部分が「深層」である。
・国会図書館で進めている事業のうち、WARPは表層ウェブの選択的収集を、Dnaviは深層ウェブの入り口へのナビゲートを行うものである。

2.Dnavi(データベース・ナビゲーション・サービス)

 http://dnavi.ndl.go.jp
・深層ウェブの中でも特に有用な情報資源である「データベース」のポータルサイトである。現在約6,000件を収録している。データベースの横断検索は志向していない。
・書誌情報として、タイトル・作成者・内容・分類・資源タイプ等から検索可能である。主題分類はNDCを用いている。資源タイプは「書誌」「館蔵品・所蔵品」「数値・統計」など独自の分類を用いている。

3.WARP(インターネット資源選択的蓄積実験事業)サービス概要

 http://warp.ndl.go.jp
・著作権者との許諾契約に基づき、情報資源を選択的にロボット収集を行う実験である。定期的な再収集・更新管理を行っている。インターネット上から消滅した過去の情報へのアクセスを可能とする。
・現在のコレクションは、電子雑誌(約600タイトル)、政府ウェブ(各省庁等)、協力機関(ワールドカップ日本組織委等)の3カテゴリー。
・各サイトについて、収集日が明示された特定時点のデータが提示される。複数時点のデータが蓄積され、その変遷をたどることができる。

4.WARPの業務モデル

・電子雑誌またはサイトのタイトルごとのひとまとまりを、「書誌的なまとまり」としている。「書誌的なまとまり」の下位に、ある時点で収集されたスナップショットである「個体」データが複数存在するというデータ構造を持つ。
・新規収集においては、発見→調査→著作権処理→収集条件設定→収集指示→品質検証→トリミング、個体登録→書誌登録、という手順を経る。再収集は、サイトの状況に応じた間隔設定・更新検知によって行われるが、個体登録にいたるまでにはその都度品質検証が欠かせない。
・複製権、公衆送信権のほか、リンク張り替えや文字コード変換など蓄積のために最低限のデータ改変を加えるために同一性保持権に関わる許諾処理を行っている。
・URLの階層構造(ドメイン名、ディレクトリ構造)に沿って、どの部分を許諾範囲(もしくは除外範囲)とするかの指定を、著作権者にしてもらう。URLの階層構造は必ずしも内容の階層と完全に一致するとは限らない(例えばページ群中の画像だけが別ディレクトリにあるなど)ので注意が必要である。
・複製したデータの利用については、即時利用可能、一定期間後に利用可能、NDL館内のみ利用可能、などいくつかの選択肢を用意している。
・メタデータはダブリンコアをベースに独自拡張したものを用いている。

5.WARPの課題

・著作権処理は大きな負担である。実験事業としてのWARPの一つの役割は、納本制度審議会の議論に資することであり、ネットワーク系電子資料のアーカイビングにおける著作権の取り扱いも検討対象になると思われる。
・ロボット収集は完全ではない。収集範囲の適切な設定という問題もあり、収集後の品質検証が非常に手間のかかる作業となっている。
・電子雑誌等において、収集範囲(許諾範囲)に適切に対応した「トップページ」がない場合もあり、リンクでつながったウェブに対して人為的に粒度を定めるのは難しい。
・メタデータは「書誌」的なまとまりで作成するが、書誌的なまとまり→特定時点の個体という提供では、特定の情報がいつの時点の「個体」で参照できるのかという点がわかりにくくなるという問題がある。
・この実験事業を通じて、ウェブ・アーカイビングについて、業務モデル確立、基準策定、作成者・利用者に対する理解促進などをはかっていく。
プレゼン用pptファイルもご覧ください