整理技術研究グループ勉強会記録（2007年度）

「図書館目録の将来設計」第7回

日時：: 2007年6月21日（木） 19：00～
会場：: 日図研事務所104号室
発表者：: 河手太士氏（大阪樟蔭女子大学図書館）
テキスト：: Mann, Thomas. "Will Google's Keyword Searching Eliminate the Need for LC Cataloging and Classification?"
　(http://www.guild2910.org/searching.htm)
出席者：: 蔭山、横山、松井(大阪芸術大学)、渡邊(帝塚山学院大学)、河手(大阪樟蔭女子大学図書館)

Google Print…1500万冊のデジタル化した図書をインターネット上に公開
　　　　　　　　　　　←インターネットに接続できていれば、いつでもだれでもどこでも検索することができる
　　　私(著者)の関心事＝Google Printに隠された提案(proposition)
「インターネットの非常に拡張したコンテンツ(content)の可能性は、内容を見つけるための能力を著しく減少させる」
　　　　　→主題検索を通して図書にアクセスことはとても難しくなるだろう。

Googleのソフトウェアはキーワード検索しかできない…キーワード検索が有益な場合というのは、特定の語が検索者の必要と一致している場合だけ
　　　例）”arnaldia”と” cincinelles”という語の定義（* arnaldia=病気の名前、cincinelles=虫の名前?）
　　　第3次十字軍の時代（1189年～1192年）の医学と昆虫学の語
　　　 LC・・・書架の関連する分野の古い図書をブラウジング
　　　　　　　 Google Print…「godsend（天の助け）」のよう＝「とても便利」

学問(scholarship)…別々の事実の探索や特徴的なキーワードだけを検索することはない。
　　　研究者はトピック(topic)に関連する情報源(source)の概要(overview)が必要
　　　　　　★研究者は主題目録が本当に必要なのだろうか？
　　　“Historians and Their Information Sources”という調査による立証
　　　　　　　…「データベースの検索において、包括性(Comprehensiveness)が最優先される」

Google Printは図書への効率的なアクセスを提供することはできない。←貧弱なソフトウェアのせいで
　(キーワード検索の)３つの問題点
　　・トピックに関する図書の一貫(coherent)した概要(overview)の提供ができない
　　・同じ主題で用いられている同義語、異形句(variant phrase)、異なる言語による語の問題を解決できない。
　　・同じ語による検索で、文脈(context)では誤っている検索結果と正しい検索結果を分けることができない。

[問題点１]電子化したフルテキストのキーワード検索では、トピックの文献の一貫した概要を提供できない。
　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　（レレヴァンス・ランキングがどんなに良くても）
　例）「アフガニスタンの歴史」
　　　　GoogleのWeb検索…「アフガニスタン」と「歴史」でキーワード検索→1100万件以上がヒット
　　　　　　　　　　　　　　　　　　　　　　　　　←検索結果の最初のページの結果は高校生レベル＝深い理解には不十分
　　　　図書館のOPAC　…件名標目の一覧を提示←歴史家にはそのすべてが興味深いものであろう
　　　　研究(inquiry)を進めるためのオプションとしての分類(taxonomy)は、Googleの検索ボックスにキーワードの組を入れるだけでは示すことができない。
　　　　　＝一覧することができない
　「評価(recognition)」主題検索技術（=主題の一覧による検索)と「prior specification（ピンポイントの検索ができるもの)」には明確な違いがある。
　　　キーワードによる検索…指定した語(term)がある検索結果しか得ることが出来ない＝指定した語(term)が含まれていなければ検索することができない
　　　司書による主題目録　…正確にかつシステマティックに検索することができる

[問題点２] 同義語、異形句(variant phrases)、異言語の語の問題
　LC目録で「アフガニスタン」と「歴史」で分類されているタイトルは190タイトル…様々なキーワードがある
　　例)　Come Back to Afghanistan: A California Teenager’s Story
　　　　　Conflict in Afghanistan: Studies in Asymmetric Warfare
　　　　　Misteri dell’Afghanistan: Dalle Origini alla Caduta dei Taliban
　　　　　Pour Mieux Comprendre l’Afghanistan
　　　　　Invasioni dell’Afghanistan: da Alessandro Magno a Bush
　　　　　Afghanistan: een Gescheidenis
　　　　　Afgan Turkistani: Mazlum Turklerin Ulkesi
　　　　　Sipah-i Hindukush
　　　　　Afghan Occupation of Safavid Persia, 1721-1729
　総合的な件名標目(Afghanistan-History)は、キーワードに関連する著作を集めるのに役立つ。
　アフガニスタンの歴史についての図書であるが、Afghanistanとhisotyr)は含まれていない
　　　　　　←件名標目によるアクセスとキーワードによるアクセスの違い
学問(scholarship)には関連分野の包括的概要(overview)が必要…分類(categorization)は重要
何十億のキーワードの存在…書名に現れていなくても適切な図書を全て検索できることを保証する←間違い

英語以外の言語の図書の検索…英単語でできない
　　件名標目によって達成してきたgroupingがキーワード検索では、バラバラになる。
　LCがジェファーソン以来つぎこんできたもの…2世紀以上にわたる何百万ドルの税金
　　　　　↑　　　　　　　　　　　　　　　　500種類の言語の著作の収集・分類・集中
　　　Googleの検索機能がLCの目録や分類に置き換わると価値がなくなる
　LCの目録や分類…異なった言語の図書であっても対象とする分野の図書はまとまっているので簡単に探しフルテキストにアクセスできる
　Google…異なる言語のフルテキストを引き出すことはできない（たとえフルテキストが電子化されていても）
　　　例）フランスで最初に出版された本を探す
　　　　　　Google Print…英語での検索でないために見つけることができないだろう＝正しい検索キーワードを指定するのは難しい
　　　　　　図書館の分類体系…英語の図書の近くに類似する主題をもつフランス語の図書が配置される

[問題点３]　同じ語による検索で、誤っている検索結果と正しい検索結果を分けることができない。
Googleの「レレヴァンス・ランキング」…正しい概念的コンテキスト(context)中の正しい語の表示には失敗する←経験的にわかる
例)「アフガニスタン」と「歴史」
　　　　Google Web検索…1100万件ヒット
　　　　Google Print(145億ページ)…Google Web検索とほぼ同じ結果になるかも
　Googleのソフトウェア…see the forest for the treesが不可能（「木を見て森を見ず」になる）
　Google Printプロジェクトのさらなる問題点
　　　・1500万冊の図書の中に何万冊かの辞書が含まれる→あらゆるキーワードが検索される。
　　　　　　　　　　　　　　　キーワードを追加しても「徐々に正確(progressively refined)」なることはない
　　　・図書館目録の件名標目カテゴリや図書の主題分類のような機能を持っていない
　　　　　例)　巡回図書館(traveling libraries)
　　　　　　　　　図書館（LC）…書架へ行ってブラウジングをすると15冊見つけた
　　　　　　　　　Google Webの「Advanced」検索…80万3000件ヒットする
　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　←表示されているリストの中に適切な結果を全て見つけることはできない
　　　・トピック(topic)の側面の概要(overview)マップを提供できない
　　　　　　正確な語とは異なるが概念的に適切な語(term)で検索することができない
　　　　　　正しい(right)語を含む無関係なコンテキストの検索結果の中に正しい検索結果が埋もれてしまう
　　　　　　　　　　　　←Googleのキーワード検索ソフトウェアが不十分なため
　　　　　　　できないこと…入れ子の論理式(nested parenthesis)
　　　　　　　　　　　　　　　　　ワイルドカードトランケーション(wildcard truncation)、近接演算子(proximity operators)
　　　　　　　　　←スキャンされたテキストは書名や目次などのフィールドに分類・識別されていない
　　・「レレヴァンス・ランキング」によるミスリード
　　　　　レレヴァンス・ランキング…表示を配列するためのアルゴリズムに過ぎない
　　　　　　　　　　　　　　　　　　　　　語の出現やリンクの数によって表示される順番が決まる
　　　　　　　　　　学問的コントロールに必要な典拠コントロールや関連する概念のリンク付けなどを満たしていない
　　　　　　　　　　認識的アクセス(recognition access)を完全に無効にする。

[結論]
現在の学生は検索をインターネットに依存しているという主張←疑問の余地がある主張に基づいている
　　学生は最初にインターネットに向うが、多くは実際の図書館も利用し続けている
　　　　（CLIR(Council on Library and Information Resources) Dimensions studyやOCLCのwhite paper）

Google Printなどが電子化した図書のフルテキストの提供によって、LCの件名目録をやめる←LCの経営側にとっては非常に甘い(naive)な考え
　　Googleの検索機能は伝統的な図書館の検索メカニズムと同等の能力をもっていない。
多くの学者は件名標目や書架の分類配架に依存している。
　　「ランキング」機能を持つキーワード検索による「Access」は、概念的カテゴリとは根本的に異なる。
　　　　←図書のコンテンツ(content)への概要(overview)と認識的アクセスを提供できるのは概念的カテゴリ
　LCが概念的カテゴリを提供しない
　　　　→当てずっぽうの推論を通した表面的な検索しかできない→細分化された(atomized)大量の不適切な情報に適切な情報が埋没

LCの責務…目録や分類体系の質(quality)・精度accuracy)・一貫性(consistency )を維持する
　研究図書館における学問の質は、目録と分類の質の高い標準を維持するLCの専門家に依存する。
　　★ほんとうにLCの専門家に依存するのか？
　LCはGoogleなどの不十分な検索機能が生み出し悪化させた図書へのアクセスに関する問題を解決する。
　特別コレクションの電子化よりも目録や分類体系の維持・管理に優先的に予算を使うべきだ。
　　　★集中目録を目指すことを求めている
　　　★著者は統制語とキーワードの比較をし、統制語の利点を述べている。