情報組織化研究グループ月例研究会報告(2011.3)
学術情報サービスのメタデータ・デザイン
大向一輝(国立情報学研究所)
- 日時:
- 2011年3月12日(土) 14:30〜17:00
- 会場:
- 大阪市立弁天町市民学習センター
- 発表者 :
- 大向一輝氏(国立情報学研究所)
- テーマ :
- 学術情報サービスのメタデータ・デザイン
- 出席者:
- 天野絵里子(京都大学)、井村邦博(CMS)、上田洋(ATR-Promotions)、上村孝子(大阪大学)、上山卓也(京都大学文学部)、江上敏哲(国際日本文化研究センター)、大西賢人(京都大学)、川崎秀子(佛教大学)、川瀬綾子、岸田絹子(武庫川女子大学)、古賀崇(京都大学)、塩野真弓(京都大学)、篠田麻美(国立国会図書館)、杉本節子(相愛大学)、高城雅恵(大阪大学)、高階時子(武庫川女子大学)、谷航、玉置さやか、鳥谷和世(神戸大学図書館)、長瀬広和、中村友美、野間口真裕(京都大学)、林豊(京都大学)、堀池博巳、前田正義(海上保安大学校)、松井純子(大阪芸術大学)、村井正子(日本アスペクトコア)、安原通代(京都大学)、八幡圭子(大阪教育大学図書館)、山田美雪(兵庫県立大学)、吉田暁史(大手前大学)、和中幹雄、渡邉英理子(京都大学)、渡邊隆弘(帝塚山学院大学)、大向、ほか1名<36名>
国立情報学研究所(NII)が運営する論文情報ナビゲータCiNiiにおけるメタデータの設計・運用について発表された。
1.CiNiiの展開
- CiNiiは、NIIで構築されたNII-ELS(電子図書館)・CJP(引用文献索引)にNDL、JST、機関リポジトリ由来の情報を加え、約1,300万件を検索可能な国内最大規模の論文検索サービスである。NII-ELSの約350万件等は、本文情報も提供している。
- 複数のソースから論文情報が集まるため、書誌同定・統合作業が重要である。自動・手動を組み合わせた処理を行っている。
- 2007年4月のGoogle連携、2009年4月のインタフェース一新等により、アクセス数は大きく伸び、継続的な右肩上がり傾向にある。学術専門家だけでなく一般の人々にも利用が拡がっており、それに対応したインタフェース改善を行ってきた。
2.セマンティックウェブ対応とメタデータ
- 極めて多くの論文が生産される分野でのマイニングの必要性や厳密な研究評価の要請等により、今日の論文情報は人間だけでなく、コンピュータにも扱えるものであることが求められる。
- すなわち、ウェブ情報の構造化・組織化を目指す「セマンティックウェブ」への対応である。より具体的には、様々な操作対象に一意なIDを与えることと、構造化されたフォーマットで表現することが必要である。
- 学術情報分野は、情報の構造化を生業とする職業集団を持ち、基本的に必要とされるメタデータ項目もある程度共有されているので、他の分野よりは取り組みやすい。問題は、構文・構造・語彙の各側面から適切なメタデータフォーマットを定めることである。これには、いくつかの選択肢がありうる。
- 厳密性を重視する「知識表現のためのメタデータ」と、再利用しやすい「道具としてのメタデータ」のどちらを目指すかという問題がある。CiNiiでは後者に重点を置き、できるだけ開発者が使いやすいウェブAPIとしての提供を行っている。
- CiNiiウェブAPIでは、検索という面ではOpenSearchの規格に沿い、また語彙セットとしてはDublin CoreやFOAFに沿い、独自性をなるべく排除した再利用しやすいメタデータを目指している。
- メタデータの利用促進策として、2009年からウェブAPIコンテストを実施している。
3.著者検索
- 当初は構造化していなかった情報への対応を迫られることがある。論文情報において代表的な例が「著者ID」である。近年その重要性は高まっているが、目録の「著者名典拠」にあたるものが存在せず、また数から言って手作業のみでの対応は不可能である。
- 2010年4月より「NII著者ID(NRID)」の導入(各著者にURIを発行)と、それを用いた「著者検索」機能の提供を開始した。
- 名寄せの機械処理は、原理的には、全論文の全著者に対してあらゆる2者の組み合わせについて同定判断を行うことである。現在、週次のデータ更新の都度5日程度の計算時間を要している。科研費データベースのデータや共著関係情報の利用によって、精度の確保につとめている。
- しかし、機械処理だけで100%の精度を得ることは不可能であり、あらかじめ著者・利用者からのフィードバックを織り込んだ設計を行った。過統合よりも未統合を指摘するほうが簡単なので、過統合の防止を優先した同定処理としている。フィードバックは最初の3ヶ月で6,000件以上あった。
4.おわりに
- 組織名、キーワードなど、構造化が求められる情報は他にもある。また、内部的な構造化だけでなく、「リンクトデータ」の一部としてセマンティックウェブに寄与することも重要である。
この他、NACSIS-CATのAPI公開の計画についても紹介があった。
発表後、主題情報の構造化への展望、CiNiiと機関リポジトリとの関係、著者同定におけるデータの取扱い、フィードバックの導入にいたる意思決定、等について質疑があった。
- 配布資料
- PPTスライド(PDF 620K)
-
- 大向一輝「学術情報サービスのメタデータ・デザイン」『情報の科学と技術』60(12), 2010.12. p495-500 http://ci.nii.ac.jp/naid/110007989449