整理技術研究グループ勉強会記録（2007年度）

「図書館目録の将来設計」第6回

日時：: 2007年6月5日（火） 19：00～
会場：: 日図研事務所104号室
発表者：: 渡邊隆弘氏（帝塚山学院大学）
テキスト：: Yu, Holly, and Margo Young. "The Impact of Web Search Engines on Subject Searching in OPAC." Information Technology and Libraries 23, no. 4 pp.168-180 (2004)　(http://www.ala.org/ala/lita/litapublications/ital/volume23a/number4a/yu.pdf)
出席者：: 松井(大阪芸術大学)、蔭山、川崎(佛教大学)、守屋(近畿大学)、渡邊(帝塚山学院大学)、河手(大阪樟蔭女子大学図書館)

本研究の目的

・ゼロヒット主題検索のトランザクションログ分析を通じて検索行動を検証
・検索エンジンとオンライン書店のいくつかの機能がOPACの改善を示唆←整理する

文献レビュー

1980年代半ばから、OPACに関する多くの研究

　システムデザインと利用者行動に言及するものが多い
　いくつかの方法論
　　実験、インタビュー、質問紙、観察、発話思考、トランザクションログ分析(TLA)など

ヒット件数について

　・TLAでは利用者の意図や実際の満足度は分からない（利用者が主観的に決めるものだから）
　　　→Petersは他の方法との併用を推奨
　・多くの研究はTLA単独
　・典型的には、「セロヒット」を「失敗」と解釈
　　　いくつかの研究を総合すると、おおむね３割(主題検索では４割ぐらい）がゼロヒット
　・検索性好条件として、上限件数を設ける場合も
　　　平均ヒット数が98 (Buckland)
　　　15％は多すぎる結果 (Cochlane and Markey)
　　　利用者が「多すぎる」と思う中間値は15 (Wiberly)

主題検索について

　★主題検索＝subjectの入力欄を使った検索のこと
　・主題検索に焦点をしポッタヒット件数の考察
　　　キーワード検索では100、主題検索では90が上限　(Hildreth)
　　　主題検索の望ましい結果は1～12件。この範囲に収まるのは12% (Larson)
　・主題検索はよく使われかつ、問題がある・・・多くの研究がある
　　　主題検索は最も頻繁に用いられるが、あまり成功しない　(Tolle and Han)
　　　Larsonによる問題点の整理
　　　　　利用者にLCSHの知識がない、検索式を作る場合の機械的・概念的な問題
　　　　　何も見つからない場合とあまりにたくさん見つかる場合
　　　　　見つかったものが利用者の思い描くものとマッチしない場合
　　　　　　→主題検索がキーワード検索にとってかわれつつある
　・入力される検索語数は文献上で一定しない
　　　検索語はしばしば大きな目録の標準化語彙にマッチする　(Markey)
　　　　　※いずれの研究でも、利用者教育にもかかわらず利用者はLCSHを参照しない
　　　2/3は2語以上、そのうち42%はゼロヒット　(Hildreth)
　　　　　※語数が増えればゼロヒットの可能性が高まる
　・件名標目についての研究
　　　Gerhan (1989)　タイトルキーワードでは関連図書の50%しか検索できない
　　　　　　　　　　　　　タイトルキーワードから関連図書に導けるのは55%
　　　　　　　　　　　　　それに対して、件名を使えば85%のケースで利用者を導けた
　　　Cherry (1992)　ゼロヒットの42%は、主題フィールドから検索される相互参照よりも、
　　　　　　　　　　　　　キーワード検索・タイトル検索でより豊かになる→ゼロヒットなら、キーワード検索等に誘導すべき
　　　Threne and Whitlatch (1994) まず件名よりもキーワードを選ぶべき
　・問題のタイプ
　　多くの研究で検索失敗の理由をカテゴリー化しているが、標準は確立されていない
　　多くの要因がからみあう場合もあり一般性のある分類は難しいが、一般的には
　　　スペルミス、タイポグラフィカルエラー(ドイツ語のウムラウトなど)、キーワード検索、誤った情報源・フィールド
　　　データベースにない資料、索引表示

変化への勧告

　・Hidreth (1997) 利用者の成功を改善するためには、利用者教育の増強と情報探索行動を基礎としたデザイン改善
　・Wallce (1993)　利用者がインストラクションに従う機械は少なく、成功する画面デザインは多くの人がよく使うクイック検索オプションに集中すべき
　・Large and Beheshti (1997)　選択肢があまりにも多すぎて混乱させている→メニュー構成、ブラウジング、質問入力が重要

メニュー構成について

　・検索オプションが提供されるメニュー構成は利用者の選択に影響　(Hancock-Beaulieu)
　・キーワード検索が多いのは、メニューのトップにあるから　(Ballard)
　・キーワード検索がメニューのトップにあるほうがよい　(Scott)
　・いくつかのインターフェース変更を　(Thorene and Whitlach)
　　　初心者にはキワード検索を強く推奨するため件名標目よりも上に
　　　「キーワード」より「主題もしくはタイトル中の単語」、「件名標目」より「LC件名標目」とする
　・6ヶ月にわたるTLA調査　(Blaceic)
　　　「単純化と明瞭化」のインパクト
　　　　　キワード検索をトップに持っていくだけで利用率が13.30%から15.83%に増え、ゼロヒットは35.05%から31.35%に減った
　★件名検索は使われにくいのでキーワード検索を優先すべきという流れ

質問入力について

　・OPACであれWebOPACであれ、利用者が自分の知るべきことがわかっているという前提でデザインされているので、質問ベース検索がメインストリーム

ブラウジングについて

　・レレヴァンスランキング出力とハイパーテキスト　(Hildreth)
　・MARCというオリジナルフォーマットの構造にとらわれていて、ハイパーテキスト化が遅れている　(Ortiz-Repiso and Moscoso)
　・MARCや目録規則からくる古い構造を引きずっている→Amazon.domなどはそこから脱して簡単なアクセスを提供
　・Web環境下では、基本記入概念はその意味を失っている
　・WebOPACのもう一つの大きな欠点は、シソーラス構造の利点を生かしておらず、検索フィードバックのためにシソーラスを装備していないこと
　　　→LSCHの階層構造が使えるはずだがこれを提供しきれていない
　　　　→WebOPACはこの重要なアクセス手段を提供しきれていない
　・これらの欠点が続く元凶は、一世紀以上前にマニュアル環境下で作られた目録規則
　・被専門家の利用者に普通に使われるコンセプトと図書館で用いられるコンセプトとの間にギャップ　Ortiz-Repiso and Moscoso)
　・「なぜオンライン目録は依然として使いにくいのか？」の結論　(Borgman)
　　　近年OPACのインタフェースには多くの改善がなされているが、検索者には依然として使いにくい。
　　　改善の多くは表面的な部分で、本誌手的な機能に達していない。
　　　我々の情報行動研究がOPACデザインに影響を与えたという根拠は見出せない。

目録の内容(content)について

　・利用者は目録の範囲を誤解している
　・80%が図書館目録以外(雑誌記事索引など)を見ることことを考えた？　(Van Pulis and Ludy)
　・雑誌論文タイトルで検索する場合がある　(Blazek and Bilal)
　・図書館でも各種データベースの導入につとめているが、デフォルトで単一のフロントエンドで検索できることはめったにない。

Web検索エンジンのインパクト

　・Blecicらの研究 (1998)
　　　4年間でキワード検索が急増…13.3%から28.3%に
　　　キーワードのゼロヒット…8.71%から20.78%へ
　　　主題のゼロヒット…23%から13.69%へ
　　　Webインタフェースの影響で「退行現象」…検索文法、冒頭冠詞、著者の語順
　・Webの普及によって、Web検査kの真理も出るがOPACに持ち込まれるようになった。（Webに先に親しんだ利用者もいる)
　・Web検索エンジンとOPACとの最も包括的な比較　(Jansen and Pooch)
　　　先行研究を分析して両者の検索行動を比較して表に
　　　　そんなに行動は変わらない
　　　　なぜ検索エンジンのほうが成功率が高いように見えるのか？
　　　　　　→インタフェース、検索もでる、メニューオプションの並び、document collectio、にあると思われる

CSULAのトランザクションロブ分析(TLA)

調査の方法

　連続した3四半期(2000春、2000秋、2001冬)と、その後の冬(2002冬、2003冬)
　　　どの期もサンプリングは後ろ半分(second half of the quarter)
　2000-2001調査の焦点…英語と第二言語とする(ESL)学生
　　　スペルミス等の略語の問題が高い率を示した→検索インタフェースを改良し、その効果を見るために調査を継続
　慎み深い(unobtrusive)調査方法では、利用者の意図や真の満足度はわからない
　Innovativeのインタフェース
　　　セロヒットを自動記録し、あわせて検索回数・ヒット数をレポートする機能
　　　ゼロヒット検索は著者の一人がレビューして分類(分類重出も行った)

問題のカテゴリー分け

　・レビューしながら動的に作成…独立して作成したがPeters and Hunterに類似
　・カテゴリー分け
　　　誤った検索タイプもしくはフィールド…明らかなタイトルを件名枠に入力　など
　　　不正確な文法…件名のシンタックス　など
　　　スペルミス
　　　タイポグラフィカルエラー
　　　数字、略語の問題
　　　不適切な主題定義…主題表現にはなりえないような自然語表現
　　　図書館目録では不適当…あまり特定的なもの、あるいはカレントなもの

キーワード検索の問題

　・2000年夏・秋
　　　26% スペルミス　　　　 8% フィールド誤り
　　　32% 略語、　　　　　　 7% 検索コンセプトに関わる問題　　　　　
　　　22% 文字種ミス　　　　 5% 他のデータベースが適当

テキストベースからWebベースへ

　・1999年から移行、2000年は併用
　・テキストベースでは、キーワード検索がメニューの中ほどに埋もれていた
　　　→全体の11%しか使われず
　　　→Webベースではキーワードがデフォルトとなり25%となった

検索とインターフェースの変更

　・2001年1月　Advanced Keyword Serach (AKS)の導入とインターフェースの変更
　・AKS…検索後における冒頭冠詞の無視
　　　　　　　ゼロヒットの場合の自動拡張…AND検索、OR検索、フィールド制限の無視、最初の語だけ、トランケーションの順で拡張
　　　　　　　　　　　　　　　　　　　　本図書館では最初の3つだけ
　　　　　　　→2001年冬　キーワード検索のゼロヒットがなくなった
　　　　　　　　　　　　　　　　主題検索のゼロヒットはまだ存在した
　・2001年秋　インターフェースの変更…キーワード検索をさらに強調
　　　　　　　　　　　　　　　　　　　　　　　　　主題検索を「LC Subject」に変更
　　　　　　　　　　　　　→主題検索をなるべく使わせずに、キーワード検索に誘導
　　　　　　　　　　　　　　　主題検索はLCSHの知識が必要
　　　　　　　　　　　　　　　50%はゼロヒット、20%は100件以上
　　　　　　　　　　　　　　　主題検索の問題はキーワード検索の諸問題を含む(スペリング、略語、数字、単複)

利用者の成功

　・2001～2002年　キーワード検索の成功率(1～100件のヒットが「成功」)は変わらず 70%
　　　　　　　　　　　　主題検索の成功率は34%から41%へ…主題検索数の激減を考えると、残った利用者はLCSHを理解している
　・大量ヒット(100件以上)もせいこうとはいえない
　　　Web検索では、レレバンスランキングがあるのでそれほど問題にならない
　　　AKSでは表示順をレレバンス・出版年・音順が選べる
　　　　　→CSULでは出版年をデフォルトにしていたが、1～2ページしか通覧しないという利用者行動を考えると、
　　　　　　レレバンスと出版年を組み合わせたランキングが望ましい
　・件名標目の構文誤りによる主題検索のゼロヒットが40%から12%に激減→なお主題検索を行う利用者はLCSHを理解している
　・目録以外の情報源を使ったほうがよい検索が急増…3年間で9%から28%に
　　　利用者はいろいろあるツールの一つというより、single hammerとして目録をとらえている
　　　　→検索エンジンの影響ではあるまいか(20年前から言われているが・・・)
　　　　　　Googleのように目録も何でも入れれば雑誌記事でもフルテキストでも出てくると誤解している
　・オールインワン検索、メタサーチ検索が求められている
　　　実際はすでに仮想的に存在
　　　プロダクトリストからの選択…最初の時点ではなく検索をリファインするときに選択できるべき
　　　最初の入力よりオプションリストからのブラウジングのほうが簡単　(Bates)

Web検索エンジンとオンライン書店の影響

　・Googleはラディカルに利用者の期待を変え情報探索の経験を再定義　(Luther)
　　　品質よりも早さと簡単さ
　　　レレバンスランキング等に依存した「まあまあ十分」な答え
　　　Google 世代にはメタサーチ技術が必要
　・検索エンジンはユビキタス(ubiquitous)へ→WebOPACへの期待にも影響
　・検索エンジンのプロセスについて、利用者は複数の誤解→不満　　(Muramatsu)
　　　→　OPACでも理解の欠如が俯瞰をよんでいるのでは
　・検索エンジンやオンライン書店に導入されていて、OPACには導入されていない機能
　　　自然語入力、統制語への自動マッピング、スペルチェック、類似ページ、レレバンスランキング出力
　　　人気tracking、ブラウジング、いまでは「Search inside books(なか見！検索)」さえも

自然語探索：フリーテキスト v.s. 統制語

　・検索エンジンは全文検索…利用者は検索質問の作成に困ることもある　(Jasen and Pooch)
　・コマンド文字列や件名標目、ブール演算子を要求しない。ふつうは2,3語で、ブール演算子もあまり使われない
　・冒頭冠詞つきでタイトルを入力してもよい、著者名もどんな順序でもよい
　　　検索エンジンの影響により正しい分法とゼロヒット検索の療法が減ることになるかもしれない　(Blecic)
　・利用者は検索システムの違いなどに頓着しない　(Colaric)　→OPACも自然語検索を許容する必要

統制語への自動マッピング

　・古くからの知見
　　　利用者は思いついた語で検索し事前にシソーラスに相談したりしない（後は微調整、ブラウジング、試行錯誤戦略)
　　　　→フリーテキストキーワード検索の自動拡張がゼロヒット抑制につながる
　・最初のステップ
　　　主題後、著者のハイパーリンク→フリーテキスト検索の補完
　・さらなるステップ
　　　自動マッピング、taxonomy開発
　　　　MedlinePlusのイメージ
　　　　タクソノミー…手元の内容(content)に基づきそれを管理できる大きさに分割
　　　　　→内部Webコンテンツの検索を支援するものとしてビジネス環境で使用
　　　　　　これは、各ローカルコレクションに対応して件名標目をグループ化することであり、共同コピー目録のアプローチと対照的？

スペルチェック

　・スペル・文字種のエラーは、ゼロヒットの15%以上を占める
　・Googleの"Do you mean this?"が有効では
　　　少し違う綴りの方が多くの検索結果が出る場合は、注意喚起
　　　インターネット上での語の出現頻度に基づく(辞書に出てこない固有名詞などでも対応可能)

類似ページ

　・レレバンスフィードバックは古典的な情報検索技術　(Salton)
　　　利用者が適合とみなした文献に基づいて質問を再定式
　・レレバンスフィードバックの別の形
　　　　テキスト分析(大部分の検索エンジン、page status(google)、コミュニティとエクスパート(Teoma)
　・GoogleScoutやTeomaは類似ページを示すことができる
　　　GoogleScout技術…自動的に検索結果と関連したページを「スカウト」
　　　　　　　　　　　　　　利用者に正しいキーワード入力を要求することなくリソースを発見
　　　Teoma技術…コミュニティを作り、権威とハブを含むファクターでランキング
　・WebOPACの主題リダイレクト機能はこれに近いが、最初の検索が正しい検索をもたらした時にしか有効でない。
　　　OPAC利用者は、標目のハイパーリンク(著者、タイトル、件名)をクリックできるが、より洗練された探索をシステムに尋ねることはできない？

ユーザ人気度のトラッキング(User-Popularity Tracking)

　・AmazonやBarnes&Nobleでは、利用者人気追跡による情報向上を行っている。
　　　利用者統計と利用者コメントが「推薦システム」として機能する。
　　　　→初心者利用者の「絞込み」に有効
　・「その本を借りた他の学生は、これらの本も読んでいる」というようなメッセージを埋め込む
　・利用者は資料にコメントすることができる(OPAC利用者に双方向の体験を)

要約

　・WebOPACに対する検索エンジン・オンライン書店の影響には、ポジティブ・ネガティブの両面がある。
　・Webページの発見の快適さ・簡単さ・親しみやすさを感じている利用者は、WebOPACもより使うだろう。
　・彼らは検索エンジンで得た知識を持ち込むがそれは間違った認識も持ち込む。
　・目録のusefulnessをエンドユーザの持つポジティブな認識に合わせるように強制する　(Ortiz-Repiso and Moscoso)
　・利用者の誤りには多様性があるので改善には諸アプローチのコンビネーションが求められる。
　・シソーラス用語への自動マッピング・標準的なスペルミスの翻訳・関連ページへのリンクは既に検索エンジンで用いられている
　・レレバンスフィードバックの本格利用、popularity trackingはそれほど一般的にはなっていない

WebOPACへの勧告

・TLA調査で出てきた問題
　　件名標目検索の継続的問題→歴史のある問題
　　典型的には図書目録では答えられない主題を検索するという傾向→Webの影響で出てきた問題

メタサーチ

　・データベースとOPACを単一の検索に設計するのが最近のトレンド→情報リソースを拡張してアクセスを簡単にするために必要
　・本研究の実証結果でも明らか
　・メタサーチは、シンタックスの脱線を引き起こし、利用者のリテラシー形成を阻害する、という意見もある。
　　他の人は、ここのデータベースを検索するオプションで設けた上でメタサーチを実現することが、オンライン検索の最終的目標と信じている。
　・メタサーチ技術は、図書館をワンストップショップとすることができるポータルを作ることであり、利用者には魅力的　(Luther)
　・ワンストップがすべての問題を解決するわけではないが、迅速に結果が得られるようにすることは大部分の利用者の必要を満足させる。

メニュー構成(menu sequence)

　・効果的な画面デザインが必要。メニューの並びは利用者の選択に大きく関わる。
　・あまりに多すぎるメニューは経験の浅い利用者を混乱させるもと

ブラウジング機能

　・ブラウジングは多くの情報探索の問題に対しナチュラルで効果的なアプローチでかつ利用者に努力や知識を要求することが少ない
　・Web探索は検索だけでなくブラウジングに拠っていることが多い
　・分野の初心者はめったに深くクリックしない。Webエクスパートはより深く探索する。　(Jenkins)
　・ブラウジングには最低限の訓練でよいか、それなりの経験が必要か、は意見を分かれている。
　・オンライン探索の30～40%は、書架ブラウジングに帰結する　(Hancock-Beaulieu)
　・ブラウジングオプションは、シソーラスの用語をベースとした関連文献クラスタリングによって、求める文献を効果的にみつけることが支援できる。

結果表示

　・ページレイアウトやラベル・テキスト・instructional infomationの位置は、目の動きを容易にし画面全体の明瞭さを改善する
　・アイコンの重要性(利用者はグラフィカルなインタフェースを期待）　(Chan)

レレバンスランキング

　・利用者は1,2ページしかスクロールしない、という研究は数多い
　・全文検索では結果集合と各語の出現頻度のサイズからレレバンスランキングがより有効であるが、いまや利用者はそれを期待している。
　・図書館システムも利用者の指標に基づいたレレバンスランキングアルゴリズムで実現すべき
　　　　→出版年と件名標目の組み合わせ
　　　　　利用人気度や目次中の語の出現頻度なども有効かも

助けになるヒント

　・ヘルプ機能はこれまでも議論されてきた
　・コンテキストに敏感なヘルプが大事
　　　CSULAでは基本検索画面に
　　　検索方法を選択するとそれに合わせたヘルプが出る
　・ヘルプは利用者の要求に応じてではなく自律的にシステムが出すべき　(Brajnik)
　　　（利用者がよりよい戦略をとれるようなツールと概念を与える）
　・「よくある誤り」を蓄積してヘルプに実装する方法も
　　　　ゼロヒット情報なども使って、システムがよりアクティブな役割を
　・理論的には利用者が複数の道筋を追求できるようなOPAC
　　　　質問の断片を入力したり、語彙を選択したり、援助を得て検索式を再作成したり
　・OPACは単に検索質問にマッチしたかではなく、質問に答えたかどうかで評価されるべき　(Borgman)
　　　→利用者行動モデルに基づいたデザイン
　　　　利用者が、質問をシステムが受け入れる形に「翻訳」し続けるかを議論

利用者教育←システムへの逃げ口上？

　・サイト上でのトレーニングやオンライン文書は有効
　・手続きベースの質問定式化から、question-beign-anweredへのシフト
　　　CSULAでは、入門レベルのクラスでは探索内容を定式化してキーワードを同定することに焦点
　　　システムが、検索戦略を改善するツールを提供したり、初心者の入力を受け入れてくれたりするまでは教育が必要
　・遠隔地の利用者が増えると援助も直観的なシステムが求められる
　・「念入りなヘルプシステムに投資された時間をヘルプがいらないようにインターフェースを再デザインすることに使ったほうがよい」　(Borgman)
　・利用者はシステムを学びたいわけではなくて、結果を早く得たい→使いやすさを第一に望む

結論

　・本研究のTLA…インターフェース改善が探索成功率を高めた
　・今日の利用者は検索エンジンのメンタルモデルを図書館目録にも持ち込む→WebOPACの再デザイン
　・WebOPACと検索エンジンは違うが、利用者による検索の特徴は変わりがない→検索エンジンのインパクトについての知見をデザインに生かす必要がある
　・Web利用者は検索エンジンの仕組みを知らない→次世代OPACの基本は自然言語検索(キーワード検索)を第一に
　・概念ベースの検索により、選んだトピックを自然言語で入力することができる
　　　（システムは質問をデータベースの構造・内容にマッピングする？）
　・レレバンスフィードバック・スペル修正・ランキングアウトプットも重要