TOP > 月例研究会 > 2021 > / Last update: 2021.6.28
学校図書館支援プログラムとは、ISBNなどのCSVデータなど、最低限の蔵書データの提供を受け、生徒がアクセスできる蔵書検索サイトを立ち上げるものである。このプログラムに参加可能な図書館の館種は限定しておらず、学校図書館以外の小規模な図書館も参加は可能である。導入館は現在、約600である。
COVID-19禍において全国の図書館の92パーセントが閉館したものの、カーリルにおける検索の減少は40パーセントにとどまり、検索に関する需要はそう減少はしなかった。そのような中で、小中高校や大学図書館での郵送貸出が始まり、また、臨時休館でシステムまで止めてしまった図書館もあった。一部の学校図書館においては外部からアクセスできる検索システムが存在しないという問題があった。そのため、カーリルで何か支援ができるのでは?という考えのもとで、とりあえずリリースを発表した。たまたま2019年に埼玉県高校図書館研究会と、横断検索技術の学校図書館の総合目録への応用について実験を進めていたことが、迅速な対応をとれた背景にあった。
本発表に於けるOPACの仮定義は「自館の蔵書検索をするシステム」である。OPACを1週間以内に開発する必要があり、図書館からは、自由な形式のCSV、エクセルデータを受け付けることとした。不足する情報はオープンデータで補完することで、OPACに求められる基本性能は担保する方針で、数をこなすことを重要と考えた。発表当日から、学校からの申し込みが多数あった。
当システムは実は既存技術の組み合わせであり、背景にUnitrad UI、Unitrad API、negima、openBDなどがある。当システムが目指したものは狭義のOPACではなく、蔵書検索サービスである。
当システムではCSV、エクセルデータ以外にオープンオフィス形式のデータも受け付けることとしたが、オープンオフィス形式で送付されたケースは無かった。CSVのデータは破損している割合が多く、エクセルデータでの送付が望ましかったと言える。
表形式のデータをマッピングする作業は手作業でおこなっており、この作業の自動化が今後の課題であると言える。ISBNなどのユニークキーをもとに、NDL,CiNii Books,openBDの書誌を統合し、この工程でヨミや分類、別名タイトルなども補完した。重複は考慮せず、ISBNが重複している場合は両方の書誌が追加されるようにした。
ISBNなしデータへの対応であるが、NDL・NII・openBDなどの情報源に対して書誌同定をおこなった。Okami-BM25による書誌間の距離が近いものを選択し、価格情報と出版年±1年をスコアリング要素に入れた。間違っていたデータであっても、版違いや類似図書/表示はあくまで提供データを優先とした。
インデックス戦略の検討であるが、オープンソースの全文検索エンジンを採用し、なるべく全文検索エンジンのデフォルト設定のままとし、根拠のないカスタマイズはしなかった。デフォルト設定でそもそもだいたい普通に検索できることがわかった。ヨミで検索できることが期待されているが、提供されたデータにはほとんどヨミはなかったため、日本語形態素解析エンジンによる自動付与などをおこなった。書誌中にあらわれる記号への対応には苦慮した。「・」や「&」はしばしば省略して検索されるため、「トム&ソーヤ」や、「ハリー・ポッター」が出ないといった問題があったため、とりあえず除去した。漏れのない検索をめざすため、図書資料のタイトル検索には分かち書きではなくN-gramが必須と考えられる。N-gramでは記号の除去など、積極的な正規化が行われる。一方でN-gramはノイズが多いため、ノイズ感の軽減が課題となった。スコアリング戦略の検討によってこの問題に対応すべく、分かち書きインデックスの併用、ひらがな・カタカナ変換しない(「くま」で検索したときは「クマ」より「くま」が上にでる)、特にタイトルの分かち書きインデックスのスコアをブーストするといった対応をとった。「i」「愛」「あい」などの短いタイトルが探せないという問題の解決策としては、4文字以下のタイトルを完全一致インデックスし、超ブーストするという戦略をとった。またさらに今回は、所蔵数が多いものや出版年が新しいもののスコアをあげるといった戦略も採用した。
データの更新は全件更新とした。受け取ったデータに対して、ひとつのOPACが立ち上がることとし、OPACはイミュータブル(作成後にその状態を変えない)とした。データ更新は横断検索先の切り替えとし、切り替え完了後に古いOPACは削除することとしたため、ダウンタイムゼロを実現した。
実はOPACの中も横断検索となっている。転置インデックス(てんちインデックス)-索引を作っており、事実上レコード数に限界はなく、100億冊程度のレコードなら普通に動く仕様となっている。これは、複数のサーバーで分散して動くことを可能としたために実現できた。
次のステップとしては、実装をオープンソース化し、みんなでの議論を積み重ねることによって、検索結果のコントロールを取り戻したいと考えている。また、OPACの性能テストをしたいと考えており、Project Next-Lと連携し、Web-OPAC(蔵書検索システム)の評価手法を検討するワーキンググループを立ち上げることとなった。
https://blog.calil.jp/2020/10/opaceval.html
近年、当システムを一般公開する図書館も増えた。市立図書館とまとめて横断検索できるシステムもある。大規模化への対応事例としては、埼玉県内の高校図書館と連携協定を締結し、県内のほぼすべての高校(141校) の310万冊を超える蔵書の検索を可能とした「こうとけんさく」がある。
何に使っているかを調べたところ、生徒向けのサービス、先生向けのサービス、学校間の連携、地域間の連携、選書支援、除籍支援、相互貸借などのケースがあった。何が検索できるかを調べたところ、自館の資料、生徒の作品/論文、電子書籍(青空文庫・LibrariE・TRC-DL・Overdrive)、百科事典・辞書(ジャパンナレッジ・Wikipedia)、学術文献(オープンアクセスのもの)、公共図書館の所蔵資料、市内の学校図書館の所蔵資料、附属学校間/大学図書館の所蔵資料などがあった。
今後も様々なトライへの期待がある。現場からの実践報告は以下のYouTube上の映像も参照していただきたい。「学校図書館の検索のイマ!(パート2)」
https://www.youtube.com/watch?v=lH5o3Wn4XNk
検索ニーズの再整理が重要と考える。データと検索は分離できる。今回取り組んだのはOPACの再設計であるが、大規模目録ではノイズは気になる。自館の検索は最低インフラであり、アクセスできる情報をどれだけ現実的に広げられるかが課題となる。「あることがわかる」がアクセスできないということと「知らない」ことは違う。自分が知らないキーワードでは検索できないので、「あることがわかる」をどう広げるかが重要である。
次に、プライバシーを守ることが重要である。プライバシーポリシーを明確化するべきである。
広告に追い回される中央集約型ウェブ検索エンジンからの脱却として、「横断検索」(メタ検索エンジン)の再評価の動きがある。コントロールを取り戻し、情報のランク付けはだれがするか、消す権利はだれが持つかを明確にすることが重要である。さらなるホワイトボックス化のためには、ライブラリアンとエンジニア、デザイナーの連携が必要であり、説明可能な検索を目指すべきである。潜在的な差別や偏見はないかを検討し、「説明可能なAI」という議論を進めるべきである。情報へのアクセスにだれが責任を持つかを明確にするべきである。なるべくユーザーに力を与えたいと考えている。
以上の発表を受けて、CSVデータはなぜ壊れるのか、雑誌はこのサービスの対象となっているのか、メタデータの多様さについてどのように考えているのか、多言語資料に対して今後対応していく予定はあるのか等の質疑があった。
なお、今回の月例研究会については、Zoomの映像を録画し、開催後一週間に限り、出席を申し込んだものの欠席された方にも、映像を配信した。
(記録文責:今野創祐)