TOP > 月例研究会 > 2021 > / Last update: 2021.6.28

情報組織化研究グループ月例研究会報告(2021.06)

「COVID-19 : 学校図書館支援プログラム」から見える、情報組織化と検索サービスの未来

吉本龍司氏(株式会社カーリル)


日時:
2021年6月12日(土)14:30〜16:00
会場:
(Zoomミーティング)
発表者:
吉本龍司氏(株式会社カーリル)
テーマ:
「COVID-19 : 学校図書館支援プログラム」から見える、情報組織化と検索サービスの未来
出席者:
相澤彩香、東佳栄(奈良教育大学附属中学校)、荒木のりこ(大阪大学)、伊藤真理(愛知淑徳大学)、井上昌彦(関西学院大学図書館)、今野創祐(京都大学)、江上敏哲(国際日本文化研究センター)、江草由佳(国立教育政策研究所)、大林晃美(市立小諸図書館/NPO法人本途人舎)、大野綾佳、岡田大輔(相愛大学)、兼宗進(大阪電気通信大学)、狩野ゆき(灘中学校灘高等学校)、小池孝子(中津川市立図書館)、古賀崇(天理大学)、小林康隆、酒井由紀子(帝京大学)、坂下直子(京都女子大学)、佐藤毅彦(甲南女子大学)、塩見橘子、柴田正美(三重大学名誉教授)、菅瑠衣(東京大学教育学部附属中等教育学校)、鈴木啓子、鈴木学(日本女子大学図書館)、高久雅生(筑波大学)、田窪直規(近畿大学)、谷口祥一(慶應義塾大学文学部)、常岡陽子(鎌倉市立深沢中学校)、出井友加里、徳原靖浩(東京大学附属図書館U-PARL)、長瀬広和、中村健(大阪市立大学)、西浦富美子(同志社大学・奈良大学非常勤講師)、橋口望美(沖縄県立浦添商業高等学校図書館)、長谷川優子(埼玉県立久喜図書館)、林貴子(長野県赤穂高等学校)、福井雄大(滋賀文教短期大学)、福田一史(大阪国際工科専門職大学)、ふじたまさえ(株式会社カーリル)、松井純子(大阪芸術大学)、光富健一(情報科学技術協会)、村岡和彦、村上幸二(神戸松蔭女子学院大学)、森原久美子(秀明大学図書館)、安田美穂子(南部町立会見小学校)、他26名、吉本<72名>

1. 学校図書館支援プログラム、開始から1年

 学校図書館支援プログラムとは、ISBNなどのCSVデータなど、最低限の蔵書データの提供を受け、生徒がアクセスできる蔵書検索サイトを立ち上げるものである。このプログラムに参加可能な図書館の館種は限定しておらず、学校図書館以外の小規模な図書館も参加は可能である。導入館は現在、約600である。
 COVID-19禍において全国の図書館の92パーセントが閉館したものの、カーリルにおける検索の減少は40パーセントにとどまり、検索に関する需要はそう減少はしなかった。そのような中で、小中高校や大学図書館での郵送貸出が始まり、また、臨時休館でシステムまで止めてしまった図書館もあった。一部の学校図書館においては外部からアクセスできる検索システムが存在しないという問題があった。そのため、カーリルで何か支援ができるのでは?という考えのもとで、とりあえずリリースを発表した。たまたま2019年に埼玉県高校図書館研究会と、横断検索技術の学校図書館の総合目録への応用について実験を進めていたことが、迅速な対応をとれた背景にあった。

2. 技術的な話

 本発表に於けるOPACの仮定義は「自館の蔵書検索をするシステム」である。OPACを1週間以内に開発する必要があり、図書館からは、自由な形式のCSV、エクセルデータを受け付けることとした。不足する情報はオープンデータで補完することで、OPACに求められる基本性能は担保する方針で、数をこなすことを重要と考えた。発表当日から、学校からの申し込みが多数あった。
 当システムは実は既存技術の組み合わせであり、背景にUnitrad UI、Unitrad API、negima、openBDなどがある。当システムが目指したものは狭義のOPACではなく、蔵書検索サービスである。
 当システムではCSV、エクセルデータ以外にオープンオフィス形式のデータも受け付けることとしたが、オープンオフィス形式で送付されたケースは無かった。CSVのデータは破損している割合が多く、エクセルデータでの送付が望ましかったと言える。
 表形式のデータをマッピングする作業は手作業でおこなっており、この作業の自動化が今後の課題であると言える。ISBNなどのユニークキーをもとに、NDL,CiNii Books,openBDの書誌を統合し、この工程でヨミや分類、別名タイトルなども補完した。重複は考慮せず、ISBNが重複している場合は両方の書誌が追加されるようにした。
 ISBNなしデータへの対応であるが、NDL・NII・openBDなどの情報源に対して書誌同定をおこなった。Okami-BM25による書誌間の距離が近いものを選択し、価格情報と出版年±1年をスコアリング要素に入れた。間違っていたデータであっても、版違いや類似図書/表示はあくまで提供データを優先とした。
 インデックス戦略の検討であるが、オープンソースの全文検索エンジンを採用し、なるべく全文検索エンジンのデフォルト設定のままとし、根拠のないカスタマイズはしなかった。デフォルト設定でそもそもだいたい普通に検索できることがわかった。ヨミで検索できることが期待されているが、提供されたデータにはほとんどヨミはなかったため、日本語形態素解析エンジンによる自動付与などをおこなった。書誌中にあらわれる記号への対応には苦慮した。「・」や「&」はしばしば省略して検索されるため、「トム&ソーヤ」や、「ハリー・ポッター」が出ないといった問題があったため、とりあえず除去した。漏れのない検索をめざすため、図書資料のタイトル検索には分かち書きではなくN-gramが必須と考えられる。N-gramでは記号の除去など、積極的な正規化が行われる。一方でN-gramはノイズが多いため、ノイズ感の軽減が課題となった。スコアリング戦略の検討によってこの問題に対応すべく、分かち書きインデックスの併用、ひらがな・カタカナ変換しない(「くま」で検索したときは「クマ」より「くま」が上にでる)、特にタイトルの分かち書きインデックスのスコアをブーストするといった対応をとった。「i」「愛」「あい」などの短いタイトルが探せないという問題の解決策としては、4文字以下のタイトルを完全一致インデックスし、超ブーストするという戦略をとった。またさらに今回は、所蔵数が多いものや出版年が新しいもののスコアをあげるといった戦略も採用した。
 データの更新は全件更新とした。受け取ったデータに対して、ひとつのOPACが立ち上がることとし、OPACはイミュータブル(作成後にその状態を変えない)とした。データ更新は横断検索先の切り替えとし、切り替え完了後に古いOPACは削除することとしたため、ダウンタイムゼロを実現した。
 実はOPACの中も横断検索となっている。転置インデックス(てんちインデックス)-索引を作っており、事実上レコード数に限界はなく、100億冊程度のレコードなら普通に動く仕様となっている。これは、複数のサーバーで分散して動くことを可能としたために実現できた。
 次のステップとしては、実装をオープンソース化し、みんなでの議論を積み重ねることによって、検索結果のコントロールを取り戻したいと考えている。また、OPACの性能テストをしたいと考えており、Project Next-Lと連携し、Web-OPAC(蔵書検索システム)の評価手法を検討するワーキンググループを立ち上げることとなった。
https://blog.calil.jp/2020/10/opaceval.html

3. 運用事例

 近年、当システムを一般公開する図書館も増えた。市立図書館とまとめて横断検索できるシステムもある。大規模化への対応事例としては、埼玉県内の高校図書館と連携協定を締結し、県内のほぼすべての高校(141校) の310万冊を超える蔵書の検索を可能とした「こうとけんさく」がある。
 何に使っているかを調べたところ、生徒向けのサービス、先生向けのサービス、学校間の連携、地域間の連携、選書支援、除籍支援、相互貸借などのケースがあった。何が検索できるかを調べたところ、自館の資料、生徒の作品/論文、電子書籍(青空文庫・LibrariE・TRC-DL・Overdrive)、百科事典・辞書(ジャパンナレッジ・Wikipedia)、学術文献(オープンアクセスのもの)、公共図書館の所蔵資料、市内の学校図書館の所蔵資料、附属学校間/大学図書館の所蔵資料などがあった。
 今後も様々なトライへの期待がある。現場からの実践報告は以下のYouTube上の映像も参照していただきたい。「学校図書館の検索のイマ!(パート2)」
https://www.youtube.com/watch?v=lH5o3Wn4XNk

4. 未来に向けて

 検索ニーズの再整理が重要と考える。データと検索は分離できる。今回取り組んだのはOPACの再設計であるが、大規模目録ではノイズは気になる。自館の検索は最低インフラであり、アクセスできる情報をどれだけ現実的に広げられるかが課題となる。「あることがわかる」がアクセスできないということと「知らない」ことは違う。自分が知らないキーワードでは検索できないので、「あることがわかる」をどう広げるかが重要である。
 次に、プライバシーを守ることが重要である。プライバシーポリシーを明確化するべきである。
 広告に追い回される中央集約型ウェブ検索エンジンからの脱却として、「横断検索」(メタ検索エンジン)の再評価の動きがある。コントロールを取り戻し、情報のランク付けはだれがするか、消す権利はだれが持つかを明確にすることが重要である。さらなるホワイトボックス化のためには、ライブラリアンとエンジニア、デザイナーの連携が必要であり、説明可能な検索を目指すべきである。潜在的な差別や偏見はないかを検討し、「説明可能なAI」という議論を進めるべきである。情報へのアクセスにだれが責任を持つかを明確にするべきである。なるべくユーザーに力を与えたいと考えている。

 以上の発表を受けて、CSVデータはなぜ壊れるのか、雑誌はこのサービスの対象となっているのか、メタデータの多様さについてどのように考えているのか、多言語資料に対して今後対応していく予定はあるのか等の質疑があった。
 なお、今回の月例研究会については、Zoomの映像を録画し、開催後一週間に限り、出席を申し込んだものの欠席された方にも、映像を配信した。

(記録文責:今野創祐)