TOP > 勉強会 > 2007年度 > / Last update: 2008.1.1

整理技術研究グループ勉強会記録(2007年度)

「図書館目録の将来設計」第1回


日時:
2007年1月25日(木) 19:00〜
会場:
日図研事務所104号室
発表者 :
吉田暁史氏(大手前大学)
テキスト:
Toward a Twenty-First Century Library Catalog / Antelman, Kristin and Lynema, Emily and Pace, Andrew K. Information Technology and Libraries 25(3):pp.128-139. 2006
(http://www.lib.ncsu.edu/staff/kaantelm/antelman_lynema_pace.pdf)
出席者:
堀池、有信、横山、蔭山、川崎(佛教大学)、渡邊(帝塚山学院大学)、河手(大阪樟蔭女子大学図書館)、吉田

抄録

◎図書館のOPAC

第1世代(1960年代と1970年代) ←既知検索が重点
カード目録の標目をそのマナ検索項目にしただけの事前結合索引であった。
←主題検索のことと思われる。(例えばLC件名をそのままの形で順次探索することか?)
第2世代
個々のキーワードによる事後結合探索・・・ブール演算子を用いる
←ブール演算は上級者向けの手法であり伝統的なブール演算手法では情報検索をうまく行うことは難しい。
図書館目録における第1世代・第2世代の主題検索はうまく機能していない。
次世代目録
1980年代の初めから多くの新しい改良が試みられられてきた。
ブール演算を用いて正確に一致したものだけを探すというものではなく、確率的手法やベクトルを用いた手法を用いて部分的な一致検索を行う。
典型的なシステム
Okapi
Relevance feedbac手法の導入(基本的に自然語キーワードを対象とした自動索引手法)
CITEプロジェクト
1979年・1983年にNLMでMEDLINEデータベースなどを対象とする
MeSHによる索引語と抄録などに含まれる自然語を対象とする。
確率的手法、スベル自動修正/stemming手法を用いる。
NCSUの目録はこの世代の目録である。→主題検索をターゲットとするテクニカルなものを導入した。
その後の20年間
図書館システム作成業者は、依然として第2世代のブール演算に頼り、新しい試みを導入することはなかった。

◎NCSUのシステム

Endecaの技術を取り入れた目録
NCSUは、2005年5月にEndecaのIAPを取り入れてシステム構築を始めた。
2006年1月に新しい目録が完成した。
重点機能
(1) relevance-ranked results
(2) new browse capabilities
(3) improbed subject access
relevance rankingを用いて検索する。(relevance ranking・・・確率的に適合性を判断してランク付けすること)
MEDEX Engineが中心となる検索ソフト。
確率的あるいはベクトルに基礎を置く検索技法だけはなく、ブール演算手法も併用。ただし、利用者はブール演算子を使う必要はない。
データはMARCレコードの種々のフィールドから集める。
7つのモジュールに分かれる。 
5つのモジュールが動的にランクを決定し、2つのモジュールが静的なランクを決定する。(5つの因子はキーワードを分析して分布状況などでそのつどランキングを計算して決定し、残りの2つ(出版年と貸出総数)はそのまま利用する)
ブラウズ機能
思いつきで探索するブラウズ機能を重視。
LC分類・件名トピック・件名ジャンル・件名地理・件名形式・件名時代・言語・著者・利用頻度・所蔵館(ファセットと呼ぶ)に分けてナビゲーションを行う。
キーワードの後の絞込みで用いる。
★件名形式・・・BookなどのGMDやSMDにあたるもの?
主題検索の改善
LC件名を改善している。
relevance ranking・ implied phrase・ スペル修正・語幹処理・書誌レコード中にある無視された統制語(件名と分類)の使用といったことで主題検索を改善。
特に忘れられた分類を重点に使用する。
分類
LCとDDCを利用する。
entry vocaburaly
利用者の使用する語彙と、索引中の語彙の仲介をする、いわば大きな同義語辞書。
Endeca目録では、entry vocabularyは構築していない。
LC件名とユーザ入力語との同義語辞書は持つ。
NCSU Endecaのシステム構築
170万冊の蔵書のMARCレコード中、73の各フィールドからテキストを読み込む。
インデックスの大きさは2.5GB。これはすべてメモリ上に展開。

◎まとめと問題点