TOP > 月例研究会 > 2017 > / Last update: 2018.1.17

情報組織化研究グループ月例研究会報告(2017.12)

「Linked Dataを使用した学術論文推薦システムへの取り組みとLinked DataのIIIFでの利用」

西岡千文氏(京都大学付属図書館研究開発室)


日時:
2017年12月23日(土)14:30〜17:00
会場:
弁天町ORC200生涯学習センター
発表者:
西岡千文氏
テーマ:
Linked Dataを使用した学術論文推薦システムへの取り組みとLinked DataのIIIFでの利用
出席者:
荒木のりこ(日文研)、安東正玄(立命館大学)、飯野勝則(佛教大学)、石村早紀(樹村房)、井上昌彦(関西学院大学)、今野創祐(京都大学)、大塚栄一(樹村房)、川崎秀子、川畑卓也(奈良県立図書情報館)、佐藤久美子(国立国会図書館)、塩見橘子、高畑悦子、田窪直規(近畿大学)、竹村誠(帝塚山大学)、谷合佳代子(エルライブラリー)、田村俊明(紀伊国屋書店)、中川直子(国立国会図書館)、長瀬広和、福井雄大、福田一史(立命館大学)、堀池博巳、松井純子(大阪芸術大学)、横谷弘美(昭和女子大学)、渡邊隆弘(帝塚山学院大学)、和田康宏、和中幹雄(大阪学院大学)、西岡<27名>

1.Linked Dataの紹介

 近年、文書同士をリンクでつなげる「文書のweb(Traditional Web)」を、Data同士をリンクでつなげる「DataのWeb」へ拡張しようという動きがある。近年、DataのWebを実現するために、Linked Dataに関する取り組みが活発に行われている。Linked Dataは以下の4原則により構成される。
・原則1:あらゆるデータの識別子としてURIを使用する
・原則2:識別子にはHTTP URIを使用し、参照やアクセスを可能にする
・原則3:URIにアクセスされた際には有用な情報を標準的なフォーマット(RDF)で提供する
・原則4:データには他の情報源における関連情報へのリンクを含め、ウェブ上の情報発見を支援する
 原則3における「RDF」とは、Resource Description Frameworkの略語であり、ResourceとはURIで表現される全てのもの、Descriptionとはリソースの属性・関係、FrameworkとはDescriptionを表現するためのモデル、構文を意味している。RDFはトリプルモデルであり、全ての知識は主語(URIまたは空白ノード)、述語(URI)、目的語(URI、空白ノード、またはリテラル)に分解され、表現される。RDFデータは有向グラフとして表現することができ、RDFトリプルはグラフのエッジとして捉えられる。
 原則4は、言い換えれば、異なるデータセットをリンクによりつなげるということである。このようなリンクを増やすことで、知識発見の可能性が向上する。

2.IIIFの概要― IIIF Manifestを中心に―

 IIIFとは、国際的な画像の相互利用の枠組みを意味すると同時に、共通のAPIの開発を行い、APIに対応したソフトウェアを実装し、相互利用可能なコンテンツを公開するコミュニティを指す。IIIFでは、APIにより、画像データと付随するメタデータの相互利用を実現する。IIIFの代表的なAPIとして、Image API(画像API)とPresentation API(表示API)があり、無料かつオープンソースで公開されている。Image APIによって画像のサイズ、部分、回転、カラートーンを指定した画像の呼び出しが可能である。Presentation APIは、資料の構造とレイアウト情報を記述するための仕様を定義する。Presentation APIでは、一つの資料がマニフェストと呼ばれる要素に対応しており、マニフェストはJSON-LD形式でファイルに記述される。JSON-LDは、データを広く共有するため、JSONにグローバルな名前(URI)を組み込む形式である。マニフェストファイルは、以下の3点の情報を含む1)
・JSONの内容がIIIFマニフェストであることを示す情報
・資料オブジェクト全体に関する情報
・資料オブジェクトを構成する部分についての情報
 IIIFマニフェストであることを示す情報として@context、 @id、 @typeというプロパティがあり、全て必須項目である。資料オブジェクト全体に関する情報としてはlabel、description、metadata、attribution、license、viewingDirectionというプロパティがある。metadataでは任意のメタデータを表現することが可能である。
 資料オブジェクトを構成する部分に関する情報について、マニフェストではカンバスという要素が資料の個々のページに相当する。カンバスは@type、@id、height、width、imagesというプロパティをもつ。imagesでは、どの画像リソースをカンバスに描画するか指定する。このようなIIIFのデータモデルの背景には、Web AnnotationというWeb上の注釈を共有・連携させるためのモデルがある。Web Annotationは2010年ごろから活動が開始されたOpen Annotationを前身とし、注釈の共有・連携のため、Linked Dataの考え方を導入している。よって、IIIFでは画像はカンバスの注釈であると捉えられる。カンバス、すなわち個々のページの順序は、マニフェストのシーケンスという要素で指定される。
 IIIFの導入状況は、欧米を中心に110機関以上となり、IIIFにより3.35億枚以上の画像が公開されている(2017年5月時点)。国内では国文学研究資料館等が導入している。IIIF導入による利点としては、高精細な画像の公開が可能となること、国際標準に則ることで画像データの流通が促進され発見可能性が向上することが挙げられる。

3.京都大学附属図書館での取り組み

 京都大学においては、京都大学重点戦略アクションプラン(2016-2021)の事業のひとつとして「オープンアクセス推進事業」を進めている。事業の内容としては学術論文のオープンアクセスの推進や貴重資料等の一次資料の電子化と公開などが含まれる。一次資料の電子化と公開に関連して、京都大学図書館機構は2016年5月にIIIFへの参加に対する関心を表明し、2016年12月にIIIFコンソーシアムに加入した。2017年12月には京都大学貴重資料デジタルアーカイブが正式公開された。現在の京都大学貴重資料デジタルアーカイブは、ピックアップ、コレクション毎に、電子化した貴重資料の公開を行っている。ビューワとして、IIIFで開発が活発かつ利用頻度が高いUniversal ViewerとMiradorを採用している。Miradorではスクリーンを分割して資料を比較することが可能である。また、提供されているIIIFマニフェストアイコンをビューワにドラッグ・アンド・ドロップすることで簡単に資料を読み込むことができる。西岡氏の現在の取り組みとして、Image APIの呼び出しログを解析することで、画像の利用状況を可視化する取り組みが紹介された。
 京都大学附属図書館は、デジタルアーカイブの正式公開時にコンテンツの二次利用条件を改正し、画像の再利用を容易にしている。今後の取り組みとしては、人文学以外の研究者などのより広い利用者へのリーチや、翻刻等のアノテーションに関する取り組みが挙げられる。

4.Linked Dataを使用した学術論文推薦システム

 西岡氏による学術論文推薦システムに関する研究が紹介された。電子図書館上に大量の論文が存在するため、学術論文推薦システムの必要性が高まっている。推薦システムは、ユーザプロファイルと各論文プロファイルの類似度を計算し、高類似度の論文をユーザへ推薦する。本研究では、3つの実験因子@プロファイル手法A時間減衰関数B論文のコンテンツより被験者実験を実施した。実験因子@およびAはユーザプロファイル生成に関連し、実験因子@、A、Bは論文のプロファイル生成に関連する。プロファイルは各要素が素性の重みであるベクトルにより表現されるが、本推薦システムではナレッジグラフのリソースを素性として使用した。ユーザプロファイルはユーザのツイートより算出した。@プロファイル手法において、CF-IDF、HCF-IDF(Hierarchical CF-IDF)、LDA(潜在的ディリクレ配分法)を比較した。CF-IDF、HCF-IDFは図書館で使用されているシソーラスを用いた。これらのシソーラスの多くは、Linked Dataとして公開されている。A時間減衰関数においては、Sliding windowとExponential decayを比較した。B論文のコンテンツにおいては、論文のタイトルのみで推薦を行うことが可能かどうかを調査するため、タイトルのみを使用して論文のプロファイルを作成した場合とAll(タイトル+全文)を使用して作成した場合を比較した。評価実験では、ツイッターに基づく経済学分野の論文の推薦の被験者実験を行った。実験の結果として、12推薦手法を比較した結果、推薦手法CF-IDF×Sliding window×Allが最良となったが、推薦手法HCF-IDF×Sliding window×Titleとの統計的有意差がなく、タイトルのみでの推薦が可能であることがわかった。また、3実験因子による影響を三元配置反復測定分散分析によって解析したところ、プロファイル手法が3実験因子の中で最も性能に影響を与えることがわかり、3プロファイル手法の中ではHCF-IDFがベストであることがわかった。被験者属性については、講師・教授である被験者は、学士号が取得最高学位である被験者と比較すると、推薦された論文に関心をもたないが、推薦手法の順位には影響を与えないことがわかった。

5.学習ログを使用した学術論文推薦システムへ向けて

 この研究の背景としては、大学生の研究への関心が挙げられる。近年の京都大学の学生は学部・学科・大学院専攻等の選択時の重視点として「最先端の学問が学べる」という要素を挙げることが多いが、大学低学年の講義で取り扱う内容は定説化したものが多く「最先端の学問」とは言い難い。本研究は、「最先端の学問」を示すものの一つである学術論文と、講義資料を結びつけることで、学習内容が最先端の知見・事例にどのように結びついているかを提示し、学習内容への関心の深化・学習意欲の向上を目指す。また、他の研究背景として、オープンアクセス方針策定の結果、京都大学の機関リポジトリ(IR)のコンテンツ数が増加したため、これらのコンテンツ活用機会の増加していること、また、従来の学術論文推薦システムでは被験者のその後の行動への影響は評価されていないが、学習ログの取得が可能な講義資料閲覧システムに推薦機能を埋め込むことで、学習ログを解析することで学術論文の推薦が学生の学習行動にどのような影響を与えたかを長期的視点で評価することが可能となることが挙げられる。本研究では、講義資料閲覧システムのBookRollを使用し、大学生・大学院生を対象とした推薦システムを作成する。学術論文のタイトルのみのマイニングが可能であるため、テキストマイニング手法としてHCF-IDFを使用する。HCF-IDFで使用するナレッジグラフとして、日本語に対応しているJST科学技術用語シソーラスを用いた。今後の研究の予定としては、小規模実証実験の結果を解析し、2018年4月以降に複数の講義で実証実験を行い、どのような学術論文が学習行動によい影響を与えるか調査する。また、2019年以降は、学習行動によい影響を与える学術論文を提示する推薦手法やパーソナライゼーションに取り組む予定である。

 以上の発表を受けて、経済学以外の他分野における推薦システムの研究の状況、学習ログを使用した学術論文推薦システムの研究における研究手法等について質疑があった。

1)この記述は神崎正英氏のブログ記事「画像共有の新しい標準IIIF」http://www.infocom.co.jp/das/loddiary/2017/01/20170127001583.html(2017-01-09閲覧)を参考とした。

(記録文責:今野創祐 京都大学文学研究科図書館)