整理技術研究グループ月例研究会報告(2007.10)
NDLデジタルアーカイブシステムと長期保存のためのメタデータ
藤原誠(国立国会図書館関西館)
- 日時:
- 2007年10月27日(土) 14:30〜17:00
- 会場:
- 大阪市立浪速人権文化センター
- 発表者 :
- 藤原誠氏(国立国会図書館関西館)
- テーマ :
- NDLデジタルアーカイブシステムと長期保存のためのメタデータ
- 出席者:
- 石井静(科学技術振興機構)、大場利康(国立国会図書館関西館)、蔭山久子、川崎秀子(佛教大)、楠本成生(相愛大)、柴田洋子(国立国会図書館関西館)、城下直之(エスオーファイリング研究所)、末田真樹子(神戸大学生)、田窪直規(近畿大)、田村俊明(大阪市立大学術情報総合センター)、堀池博巳(摂津市施設管理公社)、松井純子(大阪芸術大)、村上健治(京都大図書館)、山野美贊子(帝塚山学院大非常勤)、山本知子、吉川直樹(京都府立総合資料館)、吉田暁史(大手前大)、渡邊隆弘(帝塚山学院大)、藤原<19名>
国立国会図書館(以下、NDL)で開発中のデジタルアーカイブシステムについて、メタデータスキーマを中心に発表された。
1.NDLデジタルアーカイブシステム
- 現在NDLでは、「電子図書館中期計画2004」に沿ってWARPや近代デジタルライブラリーなどのデジタルアーカイブ構築事業を展開している。本質的に不安定さを抱えるインターネット情報を収集・保存・提供していくために、またパッケージ系電子出版物の長期利用保証を実現するために、アーカイブが必要である。後者については、平成14年度から電子情報の長期保存・利用についての調査研究を行っている。
- 平成17年度に「開発実施計画」を策定し、デジタルアーカイブシステム(以下、DAシステム)の開発を開始した。既存の事業ではデータ種別ごとに類似のシステムが並存しているが、これを単一のDAシステムに統合し、現状では考慮されていない長期保存・長期利用保証も実現する。当面は既存のデジタル化コンテンツとインターネット情報を対象としながら、パッケージ系電子出版物や録音・映像資料にも拡大していく計画である。運用開始は平成21年度第4四半期を予定している。
- DAシステムは、データを永久的に蓄積する「ストレージ層(電子書庫)」、長期保存のためのデータ管理を行う「保存システム層」、収集・組織化・提供を担う「アプリケーション層」、の3層よりなる。「保存システム層」ではOAIS参照モデルに従い、コンテンツとメタデータをセットにした「情報パッケージ」の単位で管理する。コンテンツには、info URIの仕様による永続的識別子を付与する方針である。
2.DAシステムのメタデータ
- 平成17年度よりメタデータに関する検討を開始し、19年7月に「メタデータスキーマガイドライン」を公表し、意見募集中である(年末まで)。
- DAシステムのメタデータは、コンテンツの長期保存・長期利用を保証するとともに、効率的な情報の管理とアクセスをも実現するものでなければならない。また、関係機関との相互運用性も重要である。設計にあたっては、長期的な可読性・相互運用性の観点からXMLベースの標準的スキーマを使用すること、将来的な拡張性と柔軟性を備えること、を基本方針とした。
- メタデータは「記述メタデータ」と、「技術」「権利」「保存」「管理」からなる「管理系メタデータ」からなる。この両者をコンテンツと関連付けたものを「情報パッケージ」と称する。各種メタデータとコンテンツを構成するファイルを関連付ける情報やパッケージ自身についての情報を記述する情報パッケージのメタデータが存在する。情報パッケージのメタデータスキーマとしては、OAIS参照モデルに沿って設計されたMETS(Metadata Exchange and Transmission Standards)を採用した。
- コンテンツが階層構造を持つ場合(例:タイトル−巻号−論文)、情報パッケージの「自己完結性」を重視し、コンテンツ実体に対応した情報パッケージのみを作成し、上位のレベルの情報もあわせて記録するという取り扱いを行う。
- 従来の書誌情報にあたる「記述メタデータ」のスキーマには、MODS(Metadata Object Description Schema)を採用した。ダブリンコアやMARCXMLも候補にあがったが、前者は構造化が不足していることから、後者はXMLとしてみた場合の可読性が低いことから、それぞれ採用しなかった。
- MODSのデータ要素をそのまま採用するが、その中には<extension>(拡張要素)が設けられており、不足する情報が出てくれば独自定義を行う予定である。日本語の「読み」についてはMODSに設けられたscript属性を用いて記述する。また、電子資料の原資料に関する情報や、上位レベルの情報は、いずれも<relatedItem>(関連資料)として記録する。
- 「管理系メタデータ」のスキーマは、PREMIS(PREservation Metadata: Implementation Strategies)をもとにし、一定の拡張を行ったものである。コンテンツの再生に必要な技術情報を記録する「技術メタデータ」には、ファイルフォーマット(データ形式)や再生アプリケーション等が記述される。再生の要件をプラットフォーム・OS・アプリケーション・データ形式の4階層表現としてとらえるViewPathの考え方も実装に反映させている。コンテンツの利用について規定する「権利メタデータ」は、長期保存に焦点をあてているPREMISのデータ要素に、利用の際に関わってくる情報を独自要素として追加している。コンテンツの作成履歴等を記録する「保存メタデータ」は、PREMISを参考としながら、独自に実用的で最適なスキーマを設計している。インターネット情報の収集やメタデータの更新情報等を記録する「管理メタデータ」には参考とする既存のスキーマが存在せず、独自設計を行っている。
3.補足事項と今後の展望
- 公表中のガイドラインでは、メタデータの構造、要素定義、使用方法等について記述している。当面はNDLのデジタル化コンテンツとインターネット情報を対象コンテンツとし、将来新たな種類のコンテンツを追加する場合には、ガイドラインの見直しを行う。
- ガイドラインには個々のデータ要素の具体的な入力ルールは含んでおらず、現在「記述規則」を作成中である。日本目録規則(NCR)を基本としながら、メタデータスキーマを考慮して適宜変更を加える予定である。
- ガイドラインと同時に、「国立国会図書館ダブリンコアメタデータ記述要素(DC-NDL)」も公表している。DAメタデータが長期保存のためのものであるのに対して、DC-NDLはメタデータ交換のためのものと位置づけている。
- 収集したコンテンツからのメタデータ自動抽出・自動付与について、DAシステム開発、業務運用上の重要課題として調査研究を行っている。
- 関係機関との連携・協力も今後の課題である。国内では、国立情報学研究所や科学技術振興機構などとのデータ交換、機関リポジトリとの長期保存に関わる連携、などを構想している。海外では特に東アジア圏(中国、韓国)での連携を重視している。
参考:「
NDLデジタルアーカイブシステム」
(記録文責:渡邊隆弘)