TOP > 勉強会 > 2007年度 > / Last update: 2008.1.1
整理技術研究グループ勉強会記録(2007年度)
「図書館目録の将来設計」第1回
- 日時:
- 2007年1月25日(木) 19:00〜
- 会場:
- 日図研事務所104号室
- 発表者 :
- 吉田暁史氏(大手前大学)
- テキスト:
- Toward a Twenty-First Century Library Catalog / Antelman, Kristin and Lynema,
Emily and Pace, Andrew K. Information Technology and Libraries 25(3):pp.128-139. 2006
(http://www.lib.ncsu.edu/staff/kaantelm/antelman_lynema_pace.pdf)
- 出席者:
- 堀池、有信、横山、蔭山、川崎(佛教大学)、渡邊(帝塚山学院大学)、河手(大阪樟蔭女子大学図書館)、吉田
抄録
- 主題検索を中心とした文献。
- North Carolina State大学図書館の主題検索の改善の試みを紹介。
- 改善方法
従来型のブール演算による組合せではなく、利用者が入力したキーワードを文献中のキーワードと照合して確率的に処理する方法等を採用
=全てのキーワードが一致していなくても探す
その他様々な方法を使ったOPACを第3世代のOPACと称する。
- 中心となる技術・・・Endaca社の提供するEndca Information Access Platform(詳細は不明)
- もうひとつの特長としてナビゲーション機能・・・分類・事項件名・地理件名・形式・所蔵情報といった情報で絞込みを行う。
- 「目録の将来」というよりは、開発したシステムの紹介。←従来ある技術を組み合わせて応用したもの
◎図書館のOPAC
- 第1世代(1960年代と1970年代) ←既知検索が重点
- カード目録の標目をそのマナ検索項目にしただけの事前結合索引であった。
←主題検索のことと思われる。(例えばLC件名をそのままの形で順次探索することか?)
- 第2世代
- 個々のキーワードによる事後結合探索・・・ブール演算子を用いる
←ブール演算は上級者向けの手法であり伝統的なブール演算手法では情報検索をうまく行うことは難しい。
図書館目録における第1世代・第2世代の主題検索はうまく機能していない。
- 次世代目録
- 1980年代の初めから多くの新しい改良が試みられられてきた。
ブール演算を用いて正確に一致したものだけを探すというものではなく、確率的手法やベクトルを用いた手法を用いて部分的な一致検索を行う。
典型的なシステム
- Okapi
- Relevance feedbac手法の導入(基本的に自然語キーワードを対象とした自動索引手法)
- CITEプロジェクト
- 1979年・1983年にNLMでMEDLINEデータベースなどを対象とする
MeSHによる索引語と抄録などに含まれる自然語を対象とする。
確率的手法、スベル自動修正/stemming手法を用いる。
NCSUの目録はこの世代の目録である。→主題検索をターゲットとするテクニカルなものを導入した。
- その後の20年間
- 図書館システム作成業者は、依然として第2世代のブール演算に頼り、新しい試みを導入することはなかった。
◎NCSUのシステム
- Endecaの技術を取り入れた目録
- NCSUは、2005年5月にEndecaのIAPを取り入れてシステム構築を始めた。
2006年1月に新しい目録が完成した。
- 重点機能
- (1) relevance-ranked results
(2) new browse capabilities
(3) improbed subject access
relevance rankingを用いて検索する。(relevance ranking・・・確率的に適合性を判断してランク付けすること)
MEDEX Engineが中心となる検索ソフト。
確率的あるいはベクトルに基礎を置く検索技法だけはなく、ブール演算手法も併用。ただし、利用者はブール演算子を使う必要はない。
データはMARCレコードの種々のフィールドから集める。
7つのモジュールに分かれる。
5つのモジュールが動的にランクを決定し、2つのモジュールが静的なランクを決定する。(5つの因子はキーワードを分析して分布状況などでそのつどランキングを計算して決定し、残りの2つ(出版年と貸出総数)はそのまま利用する)
- ブラウズ機能
- 思いつきで探索するブラウズ機能を重視。
LC分類・件名トピック・件名ジャンル・件名地理・件名形式・件名時代・言語・著者・利用頻度・所蔵館(ファセットと呼ぶ)に分けてナビゲーションを行う。
キーワードの後の絞込みで用いる。
★件名形式・・・BookなどのGMDやSMDにあたるもの?
- 主題検索の改善
- LC件名を改善している。
relevance ranking・ implied phrase・ スペル修正・語幹処理・書誌レコード中にある無視された統制語(件名と分類)の使用といったことで主題検索を改善。
特に忘れられた分類を重点に使用する。
- 分類
- LCとDDCを利用する。
- entry vocaburaly
- 利用者の使用する語彙と、索引中の語彙の仲介をする、いわば大きな同義語辞書。
Endeca目録では、entry vocabularyは構築していない。
LC件名とユーザ入力語との同義語辞書は持つ。
- NCSU Endecaのシステム構築
- 170万冊の蔵書のMARCレコード中、73の各フィールドからテキストを読み込む。
- インデックスの大きさは2.5GB。これはすべてメモリ上に展開。
◎まとめと問題点
- relevance ranking技法をもとに、利用者の入力したキーワードを、確率的に処理して、適合文献を見つけ、その中でさらに各種のナビゲーションを行って、必要な文献の発見へと進めるシステムである。中心的な検索エンジンはEndaca社のMEDEX Engineである。
- 利用者の評価は高いが、それは検索、ナビゲーション全体としての評価であり、最初の検索部分がどうなのかは不明である。
つまり、自然語キーワードによる検索→確率的処理→文献発見、の過程が適切かどうかは判定できていない。
また発見文献のrelevance rankingの評価も不明である。見るところ、多数の文献が見つかっている。
しかしこれを分類や他のさまざまなフィルタを通して絞り込んでいる。
その過程のナビゲーション設計は確かに優れている。
★そもそも最初の検索がうまくいっていっているとは思えない。→ナビゲーションでカバーか?
もっともこれらは結局MARCデータにすぎない。現状のMARCデータの範囲で何とか絞り込んでいるわけである。
★所詮はMARCデータだけでは、主題検索にはデータが少なすぎるのではないか。
- 確率的処理の場合、抄録などかなりの量の自然語テキストが必要と思われるが、MARCデータには通常それは存在しない。結局は、タイトルとLC件名とだけで判定しているわけである。
実験され尽くした自動索引技法に対し、このシステムで新たな前進があったとは思いがたい。
- relevance検索でみるかぎり、統制語と自然語の使い分けが出来ていない。
何のための統制語か。筆者も統制語の優位は、再現率と精度の関係を操作できることにある、と認めているが、この手法ではそれは出来ない。
要するに自然語だけの世界である。
- entry vocabularyを用いたいとあるが、これも自然語と統制語の使い分け戦略をどうするのかをはっきりさせないと、「何のために用いたのか?」となってしまう。
- 体系分類が絞り込みのために、最もよく用いられているという、調査結果は興味深い。
- ネットワーク情報資源に対しても、今回の技法は有効であり、したがって図書とネットワーク情報との一元的な検索が可能であるとする。
現にネットワーク情報資源も採用されているが、ところがデータ構造が、MARCデータと同じかどうかが書かれていないから、判断のしようがない。
- 要するに、元データ(特に主題検索のための自然語テキストや統制語の索引語)については全く論じられず、既存のデータを使用するのみである。
そして特にナビゲーション関係を強調する。
よく出来ているシステムだとは思うが、第3世代の目録とはとても思えない。
★FAST(Faceted Application of Subject Terminology)を有効利用しているシステムではある。