情報組織化研究グループ月例研究会報告（2012.6）

国立国会図書館サーチ：その開発経緯・機能・特長・今後

原田隆史（同志社大学，国立国会図書館非常勤調査員）

日時：: 2012年6月23日（土） 14：30～17：00
会場：: キャンパスポート大阪（大学コンソーシアム大阪）
発表者：: 原田隆史氏（同志社大学，国立国会図書館非常勤調査員）
テーマ：: 国立国会図書館サーチ：その開発経緯・機能・特長・今後
共催:: 目録法研究会（科学研究費基盤研究（C) 課題番号22500223 研究代表者：渡邊隆弘）
出席者：: 池須安希（大阪音楽大学）、井原英恵（神戸大学）、江上敏哲（国際日本文化研究センター）、大塚栄一（樹村房）、沖田克夫、尾松謙一（奈良県立大学付属図書館）、門昇（大阪大学）、川崎秀子（佛教大学）、川瀬綾子、河手太士（静岡文化芸術大学図書館）、川畑卓也（奈良県立図書情報館）、久保山健（大阪大学）、倉本友紀子（同志社エンタープライズ）、塩見橘子、杉本節子（相愛大学）、田窪直規（近畿大学）、田中邦英、田中伸尚（ブレインテック）、鳥谷和世（神戸大学図書館）、中村恵信（神戸松蔭女子学院大学）、成迫敬子（大阪音楽大学）、堀池博巳、前川和子（大阪大谷大学）、益本禎朗（神戸大学）、松井純子（大阪芸術大学）、水野翔彦（国立国会図書館）、宮崎幹子（奈良国立博物館）、村井正子（日本アスペクトコア）、村上健治（滋賀医科大学）、村上幸二（奈良学園小学校）、村上泰子（関西大学）、柳勝文（龍谷大学）、山野美贊子、山田美雪（兵庫県立大学）、横谷弘美（大手前大学）、吉澤啓太（富士通）、渡邉勲（神戸女子大学）、渡辺斉志（国立国会図書館関西館）、渡邊隆弘（帝塚山学院大学）、和中幹雄（大阪学院大学）、原田＜４１名＞

１．NDLサーチと業務基盤システム

NDLサーチは、PORTA（デジタルアーカイブポータル：2007年稼働）の後継システムとの位置づけで、2009年度に開発検討が開始された。内外のデジタルコンテンツの統合検索をめざしたPORTAに対して、NDLサーチでは紙資料等をも含めた統合検索を志向し、NDLの図書館システムの全面リニューアルのなかでの検討となった。
約10個から成っていた旧図書館システム全体を、NDL-OPACを含む業務基盤システム、NDLサーチ、館内サービスシステム、来館者管理システムの4システムに統合再編した。業務基盤システムについては、諸要件の検討を重ねた結果、ExLibris社のAlephを採用することとなった。NDLサーチはPORTAを引き継ぎながら、新聞総合目録、児童書総合目録やゆにかねっとなど従来独立していた検索システムを組み入れて検索部分を一元化した。
Alephを採用した場合、ディスカバリサービスシステムPrimoを同時に導入するケースが多いが、全文検索への対応が難しいこと、開発に柔軟性をもたせたいこと、等からNDLサーチではPrimoを採用せず、Next-L Enjuをベースとして独自開発を行った。
NDLサーチでは、メディアを問わず、内外の様々なコンテンツを一元的に検索できることを目指した。FRBRモデルに基づいたコンテンツの体系的整理を行い、それを利用者に体感してもらう設計にも腐心した。
「全国民」をターゲットとして開発を進めた。それは即ち、従来の図書館利用者の枠にとどまらない一般ユーザを対象として、利用者オリエンテッドな設計を目指すことである。利用者の志向を探るべくフォーカスグループインタビューを何度も開催したが、図書館関係者のみならず、「ブロガー」「高校生」「主婦」など多様な層からの吸い上げにつとめた。
適用技術については、新技術の積極的な採用、オープン性の重視等につとめた。2010年8月に「開発版」を公開し、正式稼働までの約1年半、実データを動かして実際に使ってもらいながら数々の試行錯誤を行った。やれることは何でもやってみる、が基本姿勢であった。
NDLサーチのシステムやデータを、外部の図書館等で使ってもらえるようにすることも重要と考えている。Primoを採用せずシステム開発を行った理由の一つでもあり、また権利問題がクリアできる限りにおいてデータはすべてAPIで提供するようつとめている。

２．NDLサーチの機能とシステム構成

NDLサーチは、広い収録範囲を統合して検索可能な情報検索ツールで、いわゆる「ディスカバリインタフェース」と位置づけられる。
画面設計においては、操作性・視認性の向上に関して、デザイン（ユーザビリティ・アクセシビリティの視点を含む）を非常に重視した。
「キーワード」欄のみの簡易検索機能を中心においているが、こうした単純な検索窓は、実は裏側でキーワード入力支援や自動拡張の仕組みがないと機能しがたい。あいまい検索、サジェスト機能、形態素解析、語幹処理等を開発したが、応答速度（少なくとも3秒以内に抑える）との関係で、現在は実装をとりやめているものもある。
結果表示画面には、画面左側に絞り込み用のファセット検索を、右側には検索拡張に資する語群を示す画面設計としている。後者では、WebNDLA等の典拠情報やJ-GLOBALの科学技術用語など関連する統制語、それに連想検索エンジンGETAssocによる連想キーワードを示している。連想キーワードについては、開発過程で連想の元となる文書集合によって精度が大きく変わることがわかった（現在はNDLサーチの書誌情報そのものを文書集合としている）。その他、翻訳機能（英・中・韓）も実装した。
検索対象の拡大は非常に重要である。NDLサーチでは雑誌記事、レファレンス記録、立法情報など図書以外の資料をも範囲とし、また他機関の資料にもできる限り対応している。結果、現在NDLサーチで扱う書誌情報は約7,000万件に達している。
他機関のデータについては、OAI-PMHプロトコルを利用してNDLシステム内に書誌データを収集するものと、検索時に横断検索の形をとるものとがある。横断検索は検索速度に影響を与えるため、現在はデフォルトでは行わない（収集したデータのみを検索対象とする）設定となっている。
「本」「レファレンス情報」等のアイコンを付して、様々な種類の資料が同時に表示される。諸種の資料が混在することにクレームもあるが、一括検索は維持したうえで表示面の対策を考えたい。
結果表示において、同一資料の「書誌同定」とFRBRモデルを意識した「著作同定」を行っている。いずれも谷口祥一氏の研究成果に基づいたアルゴリズムを元に，大量のデータを対象とした処理が行えるように修正を加えた仕組みを用いているが、7,000万件のデータに対する同定処理は非常に大変である。とりわけ、ISBNのようなコード情報を含め、収集されるデータのありようはあまりにも多様で、試行錯誤を重ねて処理している。
外部サービス連携機能も重視している。CiNii Books、オンライン書店、所蔵図書館のOPACへのリンクや、Twitter等のシステムとの連携をはかっている。また、JPO近刊情報センターとの連携により、近刊情報、納本時点の簡易書誌データ、完全書誌データと推移する形で全国書誌の大きな課題であったタイムラグ問題に対処している。なお、現時点では公共図書館等のシステムでISBN等によるリンク機能(OpenURLへの対応)が不十分であることが、スムーズな連携のネックとなっているが，今後の図書館システムの発展によって徐々に解消されることを期待している。
システム全体は、大きくはメタデータ収集、データ加工・保存、検索提供の3システムで構成されている。加工・保存部でメタデータ変換、同定処理、インデックス生成等の組織化処理を行うが、この部分の負荷が非常に高く、オープンソースの分散ファイルシステムHadoopを導入して分散処理を行っている。Hadoopは追加データのみの部分処理が難しく、7000万のデータを日次処理するのは大変である。

3.NDLサーチの今後

正式公開で終わりではなく、機能改善を重ねていく予定である。ここまでにも多くの試行錯誤があり、機能的には実用レベルだが検索速度の問題から実装を見送っている機能もある。また、利用者からの反応を集め、改善・拡張を行っていくことも重要である。
大量のデータを収集・加工して検索システムを実運用しているNDLサーチの経験と得られたデータは、それ自体大変貴重なものである。次世代の情報サービスの研究開発と実用化を促進するために「NDLラボ（仮称）」の設置が構想されている。
NDLサーチをベースに、震災アーカイブとして機能拡張した情報ポータルを、2013年に立ち上げる予定である。
NDLの将来目標としては、NDLサーチを入り口として、「知識インフラ」の構築を目指したい。震災アーカイブはその一環として分野を限った構築を行うものであり、最終的には様々な情報資産を利活用して知識の再生産を支援するサービスの提供を目指す。

　発表終了後、公共図書館との連携、デザインと検索機能性、電子書籍時代の展望、自然言語シソーラス活用の可能性、等について質疑応答があった。

（記録文責　渡邊隆弘）