TOP > 月例研究会 > 2022 > / Last update: 2023.1.5

情報組織化研究グループ月例研究会報告(2022.12)

「メタデータ流通ガイドラインの公開:メタデータ連携の現場から」

河口由佳氏(国立国会図書館電子情報部)


日時:
2022年12月17日(土)14:30〜16:00
会場:
(Zoomミーティング)
発表者:
河口由佳氏(国立国会図書館電子情報部)
テーマ:
「メタデータ流通ガイドラインの公開:メタデータ連携の現場から」
出席者:
荒木のりこ(大阪大学附属図書館)、今野創祐(京都大学)、江上敏哲(国際日本文化研究センター)、木村麻衣子(日本女子大学)、 工藤彩(久留米大学御井図書館)、久保誠(国際基督教大学図書館)、塩見橘子、篠田麻美(国立国会図書館)、島村聡明(京都府立図書館)、 高久雅生(筑波大学)、高野真理子(大学図書館支援機構)、田窪直規(近畿大学)、谷合佳代子(エル・ライブラリ―(大阪産業労働資料館))、 谷口祥一(慶應義塾大学文学部)、徳原靖浩(東京大学附属図書館U-PARL)、中野ひかる(関西学院千里国際中高図書館)、中村健(大阪公立大学)、 林賢紀(国際農林水産業研究センター)、村上一恵(国立国会図書館)、森原久美子(秀明大学図書館)、渡邊隆弘(帝塚山学院大学)、和中幹雄、他7名、河口<30名>

1. メタデータWGの活動

  NDL、NII、JSTの三機関では、業務連携のため年1回、三機関連絡会議を開催している。 この活動の一環として、第6回会議(平成30年度)と翌年第7回会議で、JSTより、メタデータの相互運用性の改善を目的としたWGの設置について提案があった。あわせて、同時期に、NIIより、デジタルアーカイブのメタデータ流通検討など、メタデータに関する個別検討課題の提案があり、メタデータに関する三機関内での検討の機運が高まり、メタデータWG発足に至った。WGは、翌年令和2年度から本格的に活動を開始し、発足後の、第8回会議において、JST、NIIから活動報告がなされ、継続的にWG体制を維持することが確認された。

 このメタデータWGで、当初掲げられた検討範囲は5つである。

 掲げられた5点に共通するのは、メタデータの課題改善を、1機関≒これまでのメタデータ連携(1対1の関係性)の観点からだけで行うのではなく、メタデータの提供者でもあり、利用者でもある三機関相互で、検討に協力していこうという視点である。提供と利用の2つの視点が必要である、という実感は、メタデータ流通を考えるうえで、重要なポイントと思っている。余談になるが、このWGが本格開始された令和2年度は、奇しくもコロナが始まった年にもあたる。職場環境の変化等を受けながらも、この年に活動を本格的にスタートできたのは、リモートであることがコミュニケーションを活発化させプラスになった面がある。また、三機関の実務担当者の中で、JSTが提案したこの5点に対して、強い共感(メタデータ連携維持に対する危機感)があったことも、活動の大きな原動力になっていたように、感じている。WG活動開始前も、メタデータの連携・メタデータの流通は、自機関のサービスや事業のことだけを考えて設計はできないこと、また、連携にかかるコストを減らすため、お互いの情報交換の必要性や、担当者が代わっても運用を維持できる仕組みづくりなどについて意見が交わされることは多く、WGは、これらの声が集約されていった姿、ともいえる。何とか、WGを形にして残し次につなげたい、という思いがあった。こうした設立経緯は、WG活動の成果物であるガイドラインの成立にも関わってくる。

 メタデータWGが発足した後、検討の初期に、まず、三機関内のメタデータ連携の可視化に着手した。この整理は、相互連携の種類、目的、運用状況などを整理し、現状を可視化することで、効率化や流通する情報の充実につなげていくことを目的とした。この時のプロセスや、WGという検討体制を基盤としながら、より広い範囲のメタデータ連携(流通)の改善検討につながっていった。

 検討を進めるための体制は、大きく3つ。
(1)各機関窓口 …数か月に1度、個別課題の進捗を扱う定期会議を開催
(2)NDLの館内班 …(1)や(3)の進捗確認以外に、課題に応じて館内での情報共有などを目的とした個別会議の実績もあり。
(3)個別検討 …必要に応じて、三機関外からも参加。

 メタデータの流通にかかる課題は多岐にわたり、また長期的な検討を視野に入れる必要がある。そのため、このメタデータWGという恒常的な検討基盤のもとで、課題を柔軟に設定し、課題ごとに検討体制を立ち上げる、という形で、個別課題に対する検討がスタートされた。この、様々な役割の人がかかわる必要がある、という観点は、ガイドラインの対象を考える際の背景にもなった。

 メタデータWGの検討範囲でも述べられているように、メタデータの課題に関しては、利用する側の視点も含め、様々な視点からの検討が必要である。そのため、全体の体制としても、また、個別の検討課題でも、広く検討体制をしいている。体制を大きく分けると、メタデータの作成「作る」、メタデータを集約する「集める」、活用する、の3つに分類できる。メタデータ流通を考えるうえでは、このどの視点も欠かせない。例えば、当館の体制でみてみると
「作る」


「集める」

「活用する」

となる。

 このようにはじまったメタデータWGの課題検討のうちの1つ「デジタルアーカイブのメタデータ流通」は、NIIからの提案を受け検討を開始した。IRDB等のシステムを担当するNII、JPCOARスキーマの担当、学術機関等のシステム等検討を担当するこれから委員会、NDLが検討メンバーとなった。各大学図書館等でデジタル化された貴重書等のコンテンツについて、ジャパンサーチ等の統合検索サービスを通じてアクセスを可能とするためのシステム、メタデータ、識別子付与のあり方を検討していく、とされ、この検討成果として作成・公開されたのが「メタデータ流通ガイドライン」である。

2. 「メタデータ流通ガイドライン」の作成

 メタデータWGの活動成果を公開するために生まれたのがガイドラインだった。では、このガイドラインを公開し、長く活用してもらえるように、どのような検討を行ったのか、ガイドラインの作成過程を、3点紹介する。

 1点目は、ガイドラインの対象と目的について。メタデータ流通ガイドラインでは、その対象者を、メタデータ設計に関わる方、とした。メタデータが広く流通するに際しては、カタロギングを担当するメタデータ作成者にかぎらず、システムの担当者やコンテンツの利活用の観点からそのコンテンツを管理する担当者の方など、様々な方の関与が必要である。 また、前の章でも述べた通り、利用する側の観点も必要である。そのため、流通するメタデータに関わる方に、広くみていただくことを想定した。

 次に、目的は明確に、主に2点を設定した。発見可能性を高めることと持続可能性のある流通を実現することである。メタデータ流通を効率的・効果的にするためには、この両輪のバランスが取れている必要があると考えている。発見可能性を高めるために、詳細なデータを作って初期投入したが、一時的なデータ出力で更新目途がたたず、更新のためにいちからまた調整、とかでは維持が難しい。ガイドラインの対象者やガイドラインを作っていく人も同時に様々な視点からの検討が必要になる。

 2点目は、ガイドラインを活用してもらうための、目的にそった検討とその成果物について。WGでは、検討した成果を活用するために、目的と検討する範囲、その成果を反映する成果物を明確にした。ガイドラインは、共通編を中心として、特徴のある資料種別ごとに整理した「資料種別編」、特定のデータ群のメタデータ流通経路を示した別紙や、互換性の整備を行った項目一覧などを作成した。また、スキーマの改訂やシステム対応など、関連する作業もあわせて検討を進めた。冒頭に述べた、メタデータWGの体制では、必要な課題を柔軟に設定し、また、継続的な検討を行うことが念頭に置かれていた。これらの結果を、検討課題ごとにまとめていくのではなく、ガイドラインという1つの成果物に反映していくことで、柔軟さと継続性を維持していくことが可能と考えられた。

 また、継続性のためには、検討の要素・プロセスを明確にしていくことも必要。これが3点目である。将来に活かす検討プロセスを構築した。対象のデータ群を設定した後、検討体制を立ち上げ、経路を整理、経路上で使用されるスキーマ同士の互換性を整備する、という大まかな流れで検討した。初期検討できれいに直列であったわけではないが、このプロセスは、今後、その他の資料種や館種などで検討する際にも、適用可能と想定している。

 初期に行われた打ち合わせの中で共有されたのが、「コンテンツを埋もれさせない」というキーワードであった。この「埋もれさせない」には、2点の意味合いが含まれている。

 その両方を防ぐ役割をガイドラインが担えるようにという意識合わせが最初にされた。 あくまでも、この目的のためのガイドラインであって、ぎりぎりぎちぎちとしばるためのものではない、という点は重要である。それぞれの役割をもった関係者がかかわる検討の中で、この認識のすりあわせが初期にできたことは重要だったと思う。後続のそれぞれの過程でも、ここを1つのラインにして、議論を進めることができた。また、この検討の過程であがったトピックが、ガイドラインの特長に結びついている。

3. 「メタデータ流通ガイドライン」の特長

 ここから、より具体的なガイドラインの特長を4点紹介する。

 「流通経路の整理、スキーマ間の互換性整備」「推奨度の設定」「「流通のポイント」を案内」「改善・拡充のプロセスの維持」である。

 前章で述べたガイドラインの検討過程であがっていたコメントで、もう1つ重要だったのが、ガイドラインを、「絵にかいたモチにしない」というものである。ここで図示した、流通経路の整理と具体的な経路を想定したスキーマ間の互換性整備は、まさにガイドラインを実効性のあるものとするための重要な要素だった。R3年度の検討では、「学術機関(大学等)のデジタルアーカイブ」を対象として検討を行った。経路の検討においては、まず提供側の方向性「様々なデジタルアーカイブを、サブつなぎ役として図書館で集約していこう」という収集の方針、方向性の提案があった。それをもとに、IRDBやNDLサーチ、ジャパンサーチへと至る経路の整理を行った。また、ルートの整理においては、主要なルートを定め、そのほかのルートについても、検討スコープとしては落とさないようにした。例えば今回の場合、リポジトリの経路を活用し、DOIを付与できるIRDB経路が主要ルートである。アグリゲータを経由するルートを整備していくことのメリットは、すでに実現している連携ルートに乗せてデータを連携させられる可能性が出ることや、DOI付与などの管理面でのメリット、そのほかに、各アグリゲータから更に広くデータ提供や利活用の可能性が生まれるなどにある。一方で、必ずしもすべてのデータがここに乗るわけではないため、各機関側で自館に適したルートを選択してもらえるように、他のルートの説明や整備予定も加えた。このルートの整理をベースとして、ここで交換される具体的なスキーマ間の互換性整備を行った。この互換性の整備においても、それぞれのスキーマの役割・特徴を生かしつつ、項目の対応付け等を行うことを意識した。例えば、IRDBで用いているJPCOARスキーマは、オープンアクセスリポジトリ推進協会(JPCOAR)で策定された規格であることからも、従来の紙の蔵書目録を表現するよりも、論文等の成果物のオープンアクセスを目的とした仕様になっている。対して、NDLサーチが採用しているDC-NDLは、NDLが提供する様々なサービスとDCの最新動向を反映するよう管理されてきた経緯があり、従来の紙から、デジタルアーカイブ等、様々な情報資源を扱うことを目的とした仕様となっている(ある程度、当館サービスに依存した部分がないともいえない)。これらのスキーマの作成経緯や目的が異なることで、独立した項目で情報を扱うか(巻次等)、または、情報の優先度(統制された日付?または記載のまま記述?等)などに違いがある。互換性の整備に際しては、それぞれのスキーマが成立した背景をふまえて、意味・解釈をすりあわせ、各スキーマの項目の対応付けや、運用ルールなどを検討していった。項目ごとを1対1で対応付けるのが最終目的ではなく、JPCOARスキーマでこう扱うものを、DC-NDL(RDF)ではこう扱う、という互換性を整備していくのが目的である。このように検討していくことで、必要な情報を流通させることと、連携にかかるコストを減らすことの両立をはかることができると考えた。

 いずれの検討も、背景にあるのは、検討初期に議論を行った、今回の整理の目的である、「コンテンツを埋もれさせない」、という視点である。この整理が、有効に機能するように、現実の運用状況等に即した「ゆるやかな標準化」を目指した。

 そして2点目。コンテンツを埋もれさせないための、もう一つの特長として、メタデータの項目ごとに推奨度を設定した。「推奨度」は、メタデータのスキーマが採用する必須、あれば必須といった仕様とは別に、メタデータにどのような情報を持ってもらえれば、コンテンツの活用に最低限有効なのかを明確にするために設定したものである。推奨から任意、となるごとに、メタデータの詳細度があがる。背景として、メタデータの整備が十分でなくても、最低限必要な情報が整っていれば、メタデータを流通経路に乗せてもらえるようにしたいと考えた点がある。

 実際に、連携のための調整をしていると、 「デジタルアーカイブを作り、連携したいが、どういう項目を渡せばよいのか」 また、 「メタデータがきれいになっていないので、整備せずに出すことはできない」 「コレクションごとにデジタル化しているため、メタデータにばらつきがあり一括した出力が難しい」 などの声はある。

 こういったケースでも、まずは連携に結び付けるために、参照されてほしいと考えている。

 今回設定した推奨度は、デジタルアーカイブのメタデータ流通の成果の一環であることからも、ジャパンサーチに関連して公開されている各種基準等に添うようには検討している。ガイドラインは、新たな基準を設けていく、というものではなく、データ群ごとに参照される基準類を、実際のデータ連携(流通)に適用していくための具体的な方法を案内できるようにという視点でまとめている。

 もう一つ、ガイドラインでは、各項目に対して「流通のポイント」という記載を設けた。メタデータ流通における考慮点などを記載している。特に既存の基準や参照すべき情報があれば、これを案内する記載にしている。

 ここまで説明してきたガイドラインは、1度公開して完了、というものではなく、当初から、フィードバックの反映や、特定の資料に特化した記載の拡充など、継続的な改善を想定したものとして作成された。これらのサイクルを回すことで、ガイドライン自体がコミュニケーションツールとして機能し、課題の解決、目的の達成を図ることを目指す。

4. 公開後の動き

 ここからは、ガイドラインを昨年度公開した以降の動き、メタデータWGの今年度の活動を紹介する。

 R4年度メタデータWGの検討課題であるが、「デジタルアーカイブのメタデータ流通」「研究データ」など、ガイドラインへ成果を反映するもの、ガイドライン検討を具体化するために独立させた課題などがある。それぞれの課題ごとに検討メンバーも異なる。今後も、柔軟に課題を設定し、順次、課題をクリアしていく予定である。

 1点目「デジタルアーカイブのメタデータ流通」について。昨年度までの検討実績をもとに具体化された内容が主である。公開後の動きとして、スキーマの改訂、連携検討や方針の公開などがある。また、ガイドラインを参照してメタデータ連携を調整する事例も実現できており、こういった事例を、さらなる改善につなげていくサイクルも生まれつつある。あらたな資料種別編など、改善に向けた動きは、年度末に公開ができると思う。

 ガイドラインは、メタデータ流通にかかわる様々な立場から、今こういう方向性でメタデータ流通を考えている、という現時点での意思表示になったのだろうと感じており、これに対してフィードバック等の実績を重ねることでより実践に進んでいると思う。これまでも、NDLサーチでは連携計画を公開はしていたが、大学側など、関係機関をふくめての流通経路や、実際にどういう仕様で連携可能なのか、などの選択肢の情報が十分ではなかったのだとも考えている。

 正規化等メタデータ収集組織化に関する情報共有は、今年度から着手しているもの。コード制御している項目やバリデーションをかけている項目の情報を共有して、必要な共通化をすることも一つの目的で、それ以外にも、IRDBやNDLサーチといったアグリゲータ側で行っている処理を公開することで、では、個別機関側ではどういった処理を行ってからデータを出してもらったらよいのか、などの処理の分界の明確化にもつなげたいと考えている。

 学術機関のデジタルアーカイブ検討については、IRDB経由の連携経路を実運用にのせるためには、メタデータの利用条件の付与や、個々のデジタルアーカイブの単位でデータを抽出できるようにするなどの個別の検討がさらに必要となる。メタデータの利用条件の整備は、デジタルアーカイブに限らず検討が必要であるため、今年度から、WGの個別課題に切り出した。メタデータWGの検討範囲には「メタデータの利用条件を検討する」とあり、これまでも必要な検討は個別にされてきたが、昨年度検討の中で、


といった課題が浮上した。

 1点目は特に、デジタルアーカイブの流通に限らず整理が必要であるため、今年度は個別課題に設定し、現状の課題整理を行っている。

 IRDB経由のデジタルアーカイブ連携についてだが、学術機関→IRDB→NDLサーチ→ジャパンサーチにデータが至る流れがある。学術機関の担当者は、IRDBに対して、デジタルアーカイブを1つの単位として申請可能にし、IRDBからは、このアーカイブの情報を含め、データ出力する。NDLでは、この情報を検知し、個別のデータベースが、ジャパンサーチの提供方針に合致しているか、または、メタデータの利用条件が整備されているかなどを確認の上、ジャパンサーチに登録するかを判断する、という流れである。IRDBには、論文、研究データも含め、様々な情報が含まれるため、ポリシーにのっとった登録可否の判断は必要であるものの、データ連携は、IRDBの仕組みを用いて自動化できる仕組みを考えた。IRDBのメタデータの二次利用条件については、今年度の個別課題でも情報共有がされたが、一律の付与はまだ難しいため、個別のDB単位で利用条件の登録ができるようにも考えた仕組みである。

 2点目は、サービス連携の将来像について。今年度は、主にNDLのサービスとCiNii Researchとの連携を検討した。より具体的には、CiNii Researchの収録データベースに対して、連携対象とするかどうかの検討、また提供に際しての留意点(同定範囲)などを検討した。現在、NDLサーチが連携しているCiNii Articles・CiNii Booksは、次期サービスからは、CiNii Researchからのデータ収集に集約される想定で準備中である。

 3点目は、視覚障害者登用データに関する検討について。NIIが提供する「読書バリアフリー資料メタデータ共有システム」とのメタデータ連携に向けた検討をしている。このシステムは、文部科学省とNIIで運営されている。大学等の図書館等の利用のために電子化された資料のメタデータを検索可能とする目的があり、当館が提供する「視覚障害者等用データ」と一元的に検索するために、NDL側のサービスとメタデータ連携することが目指されている。2022年10月4日に運用が開始され、登録されればIRDBを通じてメタデータが提供される。

 障害者向け資料、アクセシブルな資料は、これまでNDLサーチでも提供実績があったが、提供できる資料や利用できるコンテンツの幅が広がっていることに対応して、利用者が自分で利用できる資料を、より容易に特定可能とするために、テキストDAISY、PDFなどのファイル形式をはじめとして、メタデータの情報を整備・改善していくことが可能な領域と考えている。

5. なぜ今、ガイドラインなのか〜NDLサーチのメタデータ連携から〜

 ここまでガイドライン公開に至った流れをみてきたが、ここから、なぜ「ガイドライン」だったのかを、NDLサーチのメタデータ連携の現場の立場からみていく。

 NDLサーチは、2012年1月に正式公開したサービスである。図書館等が扱う情報資源のメタデータの統合的検索機能の提供のほか、集約したメタデータの流通促進によって、連携機関のコンテンツと利用者をつなぐ、という役割を担っている。2022年12月時点で、約120のデータベースと連携し、1.2億件以上の情報を検索できる。デジタルコンテンツの利活用を促進する場としてのジャパンサーチに対して、NDLサーチは、「書籍等分野のつなぎ役」としてメタデータを提供している。提供範囲は、ジャパンサーチのポリシーにそって、メタデータがCC0(またはCC BY)で利用できるデジタルアーカイブである。

 NDLサーチ上でのメタデータの流れだが、データが収集され、組織化、インデックスやデータベースに格納されて、画面、API等に提供される流れがある。DC-NDL(RDF)は公共図書館蔵書の連携のうち8割程度で採用されている。また、蔵書での連携実装があることから、公共図書館のデジタルアーカイブ連携でも実績が広がっている。JPCOARスキーマは、IRDBとの連携に限らず、大学図書館等のデジタルアーカイブでの連携実績が増えている。これら、様々なデータを集め、提供するのが主なNDLサーチのメタデータの流れである。  メタデータ連携の種類として以下がある。

  1. API
    連携先の更新頻度に応じて、NDLサーチからリクエストを行い、返戻されたデータを格納するもの。一例として東大の場合、内部データを、dcndl-simpleに変換したデータが返戻され、これを、NDLサーチ側でDC-NDL(RDF)に変換して格納している。API連携の場合、システム的に更新処理を実現できるため、比較的更新頻度の多いデータ連携で実績が多い。
  2. ファイル
    データのファイルを直接提供してもらう連携。更新頻度が比較的少ないデジタルアーカイブでの連携で実績が多い。ファイル提供の場合、内部データからの出力が人力であることなどから、出力仕様を維持しにくいなどの課題があったが、青森の事例のように、連携先でもオープンデータとして提供されるなどの変化があり、恒常的な連携の維持の目途もたち、現在実績が広がっている。

 NDLサーチのメタデータ連携の流れを見ると、データ連携の際にはいくつかのデータ変換が生じていることがわかる。このデータの変換処理を行うにあたっては、何の情報をどの範囲で、まだどの形式で出力するかの判断、定義が必要になる。また、1つのメタデータのながれをおうと、「OPAC提供画面」等の自館のサービスを実現するためと、連携され他館のサービスを実現するための、大きく2つの役割を担っていることがわかる。

 メタデータの持つべき要件はこのように、連携や流通を想定すると様々に広がるが、メタデータの仕様・要件が検討される場合(メタデータ設計の場面で)、多くは、
(1)自館データのサービス提供に即した仕様で内部仕様が設計される
(2)連携調整が開始されて、自館のデータから外部出力の変換仕様が設計される
という2段階になり、(1)と(2)の両方の視点をもって検討していくことは難しく、また、具体的な連携先が決まっていなければ、?の仕様をあらかじめ想定することも難しい。1つのメタデータが広く流通することで、その情報資源を利用できる機会が広がるが、メタデータが流通する過程では、フォーマットも変換され、適用される仕様にも変化が生じ、個別の仕様にそって設計することでは充足しない部分がある。このような課題に対応するための解決策の1つが、様々なシステム、サービス、フォーマット(スキーマ)で共通的に参照できる「ガイドライン」だった。

6. 「メタデータ流通ガイドライン」の使いどころ

 では、「ガイドライン」という場でできること、どういった場面で実際に使えるのか、その使いどころをNDLサーチ担当の立場から具体的にみていく。

 NDLサーチでの連携開始までの手順は、主に以下のとおりである。


ただ、過去にデジタル化された資料・システムの場合には、対応が難しいケースもある。これらに対して、一定のライン(ここまで対応してもらえればまずはOK)、を設けることで、まずは連携を開始していこう、というのがガイドラインのスタンスである。

 次に、近年の連携の特徴を少しご紹介する。従来の連携先システムの構成では、デジタルと紙を別々に持っている。これが近年は変化しており、紙・デジタルの情報を同じシステム、データで管理するケースも出てきている。この事例の場合、1つの書誌に、所蔵情報と、デジタル化の情報がくっついているような形になり、NDLサーチとの連携時には、所蔵情報を付加してもらうかデジタル化の情報を付加してもらうかで、出力されるデータを区分けしてもらっている。また、さらに様々なデータを集約した例として、地域アーカイブを提供するためのプラットフォームになっていたり、自館に所蔵のないデータをデジタル化して提供する役割を担うケースもある。どの範囲のデータの連携を希望されるか、その要件に基づいて連携対象となるシステムが扱っているデータの範囲を確認する必要があるなど、初期ヒアリングに時間をかけるケースは増えてきた。

 連携先のシステム開発からの流れでみてみる。メタデータ連携を行う場合、これまでの多くのケースでは、自館システムの開発と外部連携を並行して走らせることは難しいため、連携の調整が、開発終盤になってから開始となるケースが多い。具体的な連携仕様が反映されず開発が進んだ場合、必要な機能が実装されていない、情報が出力できない(例えば、サムネイルを表示させたいが必要な情報を出力できない、などの出力項目の不足も含む)、という不足の方と、連携には実際に使用しなかった機能をもっている、など、過剰の方の、2つの事象が起こりうる。

例えば、サムネイルを自館と同じように連携先サービスでも表示したい、という要件があった場合のご提案方法としては、
(1)サムネイルURLを出力してもらう(対応するメタデータ項目への格納)
(2)IDなど必要な情報をもとに、NDLサーチの変換処理時にURLを生成する
などがある。

(1)の場合、追加出力に改修が必要なケースもあり、 また(2)の場合もID等から変換できるようにURLが体系化されていないと難しい。(1)(2)のいずれにも対応が難しかった場合、サムネイル画像をもっているが、情報を流通させられず他サービスでサムネイルを表示できない、という状況が生まれる。また、逆に本来使わない機能をもってしまっている、というケースも保守性に欠ける面があり、システムの維持には適切でない。必要以上のコスト(お金・労力)をかけずに効果的な連携を実現するには、仕様が固まる前段階から連携に必要な要件を適切に取り込めることが重要と考える。

ガイドライン検討のプロセスは、連携のための要件定義に必要な要素に対応しており、連携要件を選択してもらうために必要な情報がガイドラインに含まれるように考えた。メタデータ流通全体の不一致を防ぐためには、連携先となるシステム側から積極的に、さらにその先のデータの活用側の視点を含む必要な情報を提示していくような動きが必要である。ガイドラインはこれを代弁してくれるものになると考えており、いま、ガイドラインが目指す姿の1つがこのような点にある。ガイドラインラインを「コミュニケーションのためのツール」と表現するのは、一方的に提示して実装を求めるものではなく、方法の提案を行う場であるため。

ガイドラインを、個別のメタデータ連携の場面で活用してもらうことで、全体として、より効果的なメタデータ流通を実現できると考えている。より具体的に参照してもらうことで、ガイドラインで検討していくべき課題のフィードバックも受けられるようになる。

7. 提供サービスと流通データの充実に向けて

メタデータの役割を流通の流れの中で見た場合に、では、NDLサーチのメタデータに求められる要件は何かを、提供サービスと流通するメタデータの双方の充実のため、という目線から考えてみたいと思う。

体制やガイドラインの対象でも触れてきた「作る」「集める」「活用する」という3つの視点から、メタデータに求められる要件を実現するために、「集める」という役割からNDLサーチが提供するメタデータが担う役割を、


という2点と考えた。今後のNDLサーチリニューアルに際して、改善していこうと思っている点をご紹介する。

まずは1点目。内部データの仕様は、特定のフォーマットに依存しない形式とし、様々な形式で提供される受領データの詳細度を保ちつつ、自館サービスまたはAPI等データ提供サービスそれぞれに適したデータを保持できるようにしたいと考えている。一方で、他機関デジタル資料や電子書籍等扱う資料の種類の増加から、これまで紙のみ3階層(管理、書誌、個体)としていたデータ構造の統一をはかることも考えている。

NDLサーチのような統合検索サービスに求められる要件として「一元的な検索」という観点があるが、これは、ただ集めて検索できていれば「一元的」とは言えない。そのためにも、どの機関で作られたデータであっても、同じ資料種別、図書なら図書、地図なら地図、または紙、デジタルといったある程度の区分ごとに、統一的に情報をもてるようにデータ構造の統一と、メタデータ項目を整備していくことが必要と考えている。この際に、内部データを特定のフォーマットに依存した仕様としてしまうと、そのフォーマットがもつ要件に依った仕様となってしまうため、様々な要件(自館サービスの要件、データ流通の場面で求められる要件等)を入れ込みやすい、柔軟な仕様にしておくことが解決策だろうということに、現在の検討は至っている。

また、繰り返しにもなるが、例えば、収集先のすべての機関が同じ規則を適用しているということは現実的ではない。例えば蔵書目録の場合、NCRに基づいたMARCで作成されたデータが提供され、複数機関でのデータの差は大きくないが、デジタルアーカイブその他の資料群の場合、機関ごと、または各機関内でもコレクションの単位でデータの内容は様々である。そのため、受け取る際の内部データの整備だけではなく、ガイドラインを通じて、こういった資料種別の場合にはこういう情報(メタデータ項目)があれば有効、ということを、具体的に発信していくことで、求められる「一元的」への課題を解決していかないといけない。  構造上の改善予定を補足すると、現在の構造では、蔵書目録とそうでない場合(実質は、書誌同定を行うかどうか)で階層が決まっている。デジタルアーカイブでも同定したいケースなど、様々なパターンが出ていることから、基本的には3階層(管理、書誌、個体)を統一的なデータ構造とする。また、同定した場合に、これまでは被同定書誌のデータは維持できなかったが、必要な情報はマージできるように構造の検討も行っている。

2点目は、データ流通経路の整備について。学術機関に続いて、公共図書館も経路を整理する必要がある。これは、ガイドライン公開時にもコメントが寄せられていたり、連携調整時に問い合わせが生じている部分である。公共図書館に特有の事情もあり、当館が提供する事業との関係性をふまえて整理が必要と考えている。

ここまで、NDLサーチの視点から課題への対応想定を紹介した。ここでできるのはあくまで、メタデータを流通させるための枠を作る準備である。さらに情報を充実させていくためには、こうして検討を、1対1の連携の検討、または館内の検討にとどめず、ガイドラインにフィードバックしていくことが重要と考えている。様々な視点からの検討をガイドラインにフィードバックしていくことで、流通するメタデータの充実、また、それが、データが利用されるサービス提供の充実につながっていくのだろうと思っている。

収集対象になる情報資源が拡充されたり、採用される技術仕様が変化したり、メタデータ連携・流通に求められる要件は、どんどん変化していく。ガイドラインの提供・維持は、こうした状況を取り込みながら、利用者と情報資源を結びつけるため、様々な関係者、また利用者が、目的に向かってコミュニケーションをとり、誰が何を担うか、何を目指していくのかを可視化していくことにつながる。そして、最終的に、最大限効果のあるメタデータ流通の継続的な実現につながる。

課題は一度に解決するわけではなく、関係者とコミュニケーションをとりながら、その時々の情勢に応じ、何を求められているのかの情報を収集しながら、実効性をもつように検討を進めていくことが、効果的で、持続可能性の高いメタデータ流通を実現するためには必要と考えている。

ガイドラインが具体的に動き始めたこの2・3年はNDLサーチ担当の立場として、自分たちが何を求められているかを考える期間になった。ガイドラインという場をうまく活用して、サービスの拡充がよりよい方向に進むよう検討を重ねていく。

以上の発表を受けて、資料種別編のガイドラインはどのようなスケジュールで明らかになる予定なのか、連携の現場で問題になっているメタデータや識別子の永続性の確保についてガイドラインにも盛り込むべきでは、メタデータの入口は発生源の入力と考えるわけだが出口はどこまでを考えているのか等の質疑があった。

なお、今回の月例研究会については、Zoomの映像を録画し、開催後一週間に限り、出席を申し込んだものの欠席された方にも、映像を配信した。

(記録文責:今野創祐)