情報組織化研究グループ月例研究会報告(2009.7)
図書館分類体系とWikipediaを統合した情報探索支援システムの開発
清田陽司(東京大学情報基盤センター)
- 日時:
- 2009年7月18日(土) 14:30〜17:00
- 会場:
- 大阪科学技術センター
- 発表者 :
- 清田陽司氏 (東京大学情報基盤センター)
- テーマ :
- 図書館分類体系とWikipediaを統合した情報探索支援システムの開発
- 出席者:
- 石定泰典(神戸大学図書館)、井上雅美(システムズデザイン)、上田洋(大阪市立大学)、江上敏哲(国際日本文化研究センター)、川崎秀子(佛教大学)、楠本成生(相愛大学)、塩見橘子、杉本節子(相愛大学)、末田真樹子(神戸大学図書館)、高橋晴子(大阪樟蔭女子大学)、玉置さやか(大阪市立総合医療センター図書室)、田窪直規(近畿大学)、鳥谷和世(神戸大学図書館)、服部繁彦(愛知淑徳大)、藤倉恵一(文教大学越谷図書館)、堀池博巳、増田知子(三菱電機)、松井純子(大阪芸術大学)、村井正子(日本アスペクトコア)、村上健治(大阪大学図書館)、山田奉子(大阪市立大学)、村上幸二(奈良学園登美ヶ丘ライブラリー)、山野美贊子(帝塚山学院大学非常勤)、山本知子、渡邊隆弘(帝塚山学院大学)、和中幹雄(同志社大学)、清田<27名>
- 共催:
- 情報知識学会関西部会
Littel Navigatorは、発表者の自然言語処理技術研究をもとに開発されたレファレンス支援システムである。今回はシステムの機能・概要にとどまらず、基盤となる考え方に踏み込んだ発表であった。
1.Littel Navigatorとは?
- 本システムは、キーワードからピンポイントに資料・情報を検索するというよりは、「情報探索のヒント」を検索することをコンセプトとしている。「パスファインダー自動生成システム」ともいえる。
- 与えられたキーワードから、件名標目・書架分類・レファレンスブック・Webサイトなど様々なリソースを統合検索して結果を示す。また、Wikipediaと件名標目等の情報を組み合わせて関連概念を図示した「テーマグラフ」を自動生成し、曖昧な質問から具体的な探し方へのナビゲーションを提供する。OPACやGoogle Scholarなど、他の検索システムとのリンク機能も備えている。
- いくつかの大学図書館に導入実績がある。また、国立国会図書館が2009年5月に導入した「リサーチ・ナビ」にもコンポーネントとして導入されている。図書館以外に、マーケティング用途での利用実績もある。
2.図書館の世界とWebの世界
- 現在のWeb検索エンジンは事実を問う質問には威力を発揮するが、テーマが曖昧なニーズには応えにくい。テーマを推薦(レコメンデーション)できる検索システムが求められる。
- 適切なテーマ推薦を行うには、カバレッジの広さ、一定の組織化、情報の信頼性の担保、が必要である。Webは情報検索手段として、非常に広いカバレッジという利点を持つが、信頼性の面での判断基準を提供してくれない、フロー情報中心でストック情報は残りにくい、という欠点も持っている。
- また、Web情報の組織化は、ソーシャルタギングなど一般利用者(情報消費者)による視点が重視され、ブラウジング指向に偏りがちである。情報散策(ブラウジング)には向いているが情報探索(知的探求)には十分に答えられない。
- Webのカバレッジの広さは、情報探索の足がかりとしては非常に有用である。一方で、図書館の持つ情報はストック性と信頼性に優れており、両者を統合できれば有効なテーマ推薦システムを構築しうる。
- 両者を橋渡しするものとして、Wikipediaに注目した。Wikipediaは、Web上に百科事典を構築するという明確なミッションを持ち、日本語版で60万件以上という膨大な項目数を擁している。また、「カテゴリ」という形で項目の組織化への取組みを行っていることは、他のWebサイトにはない大きな特色である。
3.2つの分類パラダイム
- 図書館的な分類体系を「オントロジー型」と呼ぶ。その特徴は、基本的には各概念が一つの上位概念を持つ、トップダウン的な構造である。
- 個々の利用者が自身の視点でコンテンツにタグを付与する「フォークソノミー」が2005年ごろから普及してきた。Web的な分類体系ととらえることができる。その特徴は、各概念が複数の上位概念を持つことを通常とみなす、ボトムアップ的な構造である。
- Wikipediaの「カテゴリ」は、フォークソノミー型のゆるやかな階層構造を有している。ただし、トップレベルに近い部分ではオントロジー型に近い形となっている。
4.2つの体系の統合による分類自動導出
- 図書館の分類体系をWikipediaで拡張することを考える。図書館の件名表・分類表とWikipedia(カテゴリ)には、概念名が一致するものが相当数ある。情報探索のスタート地点ではWeb上の情報資源を主対象とするが、Wikipediaを結節点として図書館の分類体系へと誘導すれば、そこに結びつけられた図書館の多様な情報資源(入門書やレファレンスブックなど)に導くことができる。
5.Wikipediaについての考察とアイデア
- Wikipediaの全項目データが、XML形式でダウンロードできる。膨大なデータであり、コーパスとして利用できる。また、表記揺れ辞書(リダイレクト等を用いる)、シソーラス(カテゴリを用いる)、固有表現辞書などとしても用いられている。
- Wikipediaは、誰でも編集できるが一定の秩序維持の仕組みを持つ。また、テンプレート等による半定型性、外部情報リソースとの連携、カテゴリによる項目の組織化なども特徴である。組織化については、フォークソノミー型とオントロジー型の中間的性格を持っている。
- Wikipediaのデータ処理を容易に行うため、データ解析ツールWik-IEを作成して公開している。
6.おわりに
- 今後の展開としては、LCSHを視野に入れた英語版など他言語版の開発、MeSHなど分野別シソーラスの活用、シラバスとの連携など情報リテラシー教育の題材としての仕組み、などを考えている。
- 「図書館かWebか」という二項対立ではなく、両者の役割を踏まえた見方が大事である。
(記録文責:渡邊隆弘)