整理技術研究グループ勉強会記録（2000年度）

「マークアップ言語とメタデータ」第7～9回

『ディジタル図書館』輪読

◎マークアップ言語とメタデータ勉強会第７回
日　時：2000年5月10日（水）19時～20:45
会　場：日図研事務所
内　容：田畑孝一著『ディジタル図書館』勉誠出版, 1999
　　　　第３，４章「電子出版とディジタル図書館」「目録とメタデータ」
発　表：尾松謙一氏（奈良県立図書館）
出　席：吉田（帝塚山学院大学）、田窪（近畿大学）、蔭山（帝塚山大学図書館）、尾松（奈良県立図書館）、村井（システムズ・デザイン）、渡邊（神戸大学図書館）
●３．２．電子出版への期待
従来の枠組に引きづられた、やや表面的なビジョンではないか
　・「これまでの出版」の出版主体ごとに記述しているため。
・たとえば学会の場合、情報発信が電子化されることは、学会そのものの
　　性格を変容させていくのではないか。
　・枠組み自体のドラスティックな変化が予想されるのでは。
●３．３．出版業界の電子出版動向
「電子書籍コンソーシアム」
　・２０００年１月で実験終了したようだ
「電子ブックコミッティ」のXMLによるフォーマットとは？
　・「Common NET EB フォーマット仕様書」がある。
　・構造（論理）タグと表現（レイアウト）タグの切り分けがいま一つ不明
　・ｐ３７のルビの例は少しおかしい（文字単位の対応が必要では？）
●３．５．電子出版と図書館
資料提供の観点からの図書館の役割
　・図書館自らいろいろな資源情報を集めてサイトを運営していくことが必要
　・"Digital City"のような試みが参考になるのでは
●４．１．これまでの図書館の目録
用語など
　・MARC = MAchine Readable Catalogになっているが、Cataloguingが正しい
　・p46で「十進分類法（DDC)」となっている
●４．２．目録の表現形式の進化
３形態で進化していくというのは適切か？
　・「機械が理解」するのと、「人間が理解」するのは別次元の話では
　　（MARCからカードが出力できるように）
　・SGMLは単純な例があがっているが、複雑なDTDになれば、
　　そのまま目で見てわかりやすいとは思われない
　　　p52の表形式のようになってはじめてわかりやすい。出力処理の問題
　　（SGMLでは「人間が理解」しやすいのは必須条件ではないのでは）
●４．３．SGML
MARCからSGMLに進化？
　・入れ子構造や繰り返しなどはSGML記述の大きな特長だが、
　　それはリレーショナルDB（RDB)と比較しての特長であろう
　　（MARCには表現能力があるはず）
　・RDBのように厳密な正規化を考えなくてもよいのは利点には違いないが、
　　逆に構造分析があいまいになる恐れもあるのでは？
●４．４．メタデータ
情報資源作成者が作るというのは現実性があるか？
　・インセンティブの問題。
　　（検索に重要だという認識が広まれば、
　　　より広範なアクセスを望む人は記述するのではないか）
●４．５．ダブリンコアメタデータ
ｐ６１の３分類「内容」「知的所有権」「具現化」
　・このようにはっきり分類できるか？
　・たとえば「言語」は内容、「出版者」は具現化、ともいえるのでは

◎マークアップ言語とメタデータ勉強会第８回
日　時：2000年5月31日（水）19時～20:30
会　場：日図研事務所
内　容：『ディジタル図書館』第５章「情報資源のメタデータ記述の枠組み」
発　表：村井正子氏（システムズ・デザイン）
出　席：吉田（帝塚山学院大学）、前川（堺女子短期大学）、蔭山（帝塚山大学図書館）、篠原（帝塚山大学図書館）、尾松（奈良県立図書館）、村井（システムズ・デザイン）、堀池（京都大学大型計算機センター）、渡邊（神戸大学図書館）
内　容：「ディジタル図書館」第５章「情報資源のメタデータ記述の仕組み」
今回のところはRDFとXMLを扱っていますが、発表者より関係URLの紹介をいただきました。
以下、討議の概要です。
●５．１．RDF
★XMLは「人間とマシンの双方が理解できるもの」だから採用されたとあるが、
　この認識は正しいか？（p65）
　・前回の部分（SGML)にも同様の趣旨があったが．．．
　・タグ付けが人間にわかりやすいのは必須条件とはいえないのでは
　・ただ、XMLの設計思想には「人間によみやすい」ことがあげられているようだ
★「実体」と「属性」の明確な区別（p66-）
　・図書の実体を指すのにISBNを使うのはどうか
　　一意に図書と対応する番号とはいえない
　・p68の例でabout=としてURLが書かれているが、URLを識別子に用いているという情報も交換には必要なのではないか
★入れ子構造を記述する例（p70-71）
　・実体を識別するのがURLなのは？
　　→これは例であって、図書館目録で考えれば典拠レコード番号でもよいだろう
　・この部分だけhr:にして、どうやって交換時に識別するのか？
　　→後述の名前空間定義が省略されているのでわかりにくい
　　→複数規則を組み合わせて使えるのが名前空間の大きな特長だと思われるが、そのあたりの記述がされていない
★コンテナと集合・順序・択一（p72-）
　・p78のハードカバーとペーパーバックを「択一」ととらえる考え方は
　　従来の目録規則にないもので、興味深い。
　　使い方によっては、より正確な記述が可能ではないか
★シリーズの記述（p79）
　・「シリーズ」ではなく「シリーズ番号」がブロック項目になるのが
　　よくわからない
　・集合書誌レコードとのリンクまではここでは考えていないようだ
●５．２．XML
ここでは、本書の内容を少しはずれて、XMLとSGMLの違い、特長といったことが話題になりました。

◎マークアップ言語とメタデータ勉強会第９回
日　時：2000年6月23日（金）19時～21時
会　場：日図研事務所
内　容：『ディジタル図書館』第６，７章「図書館の業務とディジタル図書館の業務」「ディジタル図書館のシステム構成」
発　表：前川氏（堺女子短期大学）
出　席：吉田（帝塚山学院大学）、前川（堺女子短期大学）、蔭山（帝塚山大学図書館）、尾松（奈良県立図書館）、村井（システムズ・デザイン）、堀池（京都大学大型計算機センター）、光斎（愛知大学）
討議概要：
第６章　詳細は第７章で展開されているので特に問題なし
第７章
１．システム構成
　所蔵管理簿やメタデータ管理簿をＲＤＢで維持するのは何のためか
　　データ構造が比較的単純であり、修正などのメンテがしやすいからであろう。
p.102　ロボットあるいは手作業によるＷｅｂ文書の収集
・一般に、Ｗｅｂ文書そのものを取り込んで自前のディジタル図書館を構築することが多く行われるのだろうか。
・またp.92　L.6～8の表現によれば、「取り込むことは自由であるが、著作権の関係から提供は制限を受ける」というようにも読み取れ。しかし著作権フリーのものはともかく、一般の文書は、ダウンロードして保存すること自体が「複製権」の侵害にはならないのか。私的使用にも、図書館における複製にもあたらないと思われるが。
p.104　SGML文書化
本文とメタデータ部を自動的にＳＧＭＬ化するとあるが、メタデータ部は例えばダブリンコアに基づいて、データ識別されておれば、それも可能だろうが、本文までどのように自動的にＳＧＭＬ化するのだろうか。
p.107　図９について
この図では、インデクスファイルとメタデータ管理簿、所蔵ファイルの３者を用いている。とすれば、p.105の図７，８にある「統合ファイル」の役割は、全体をＳＧＭＬ化して、そこからインデクスファイルを作成するための作業ファイル的なものということだろうか。
p.112　N-gramについて
実用的には、Ｎの値はどれくらいだろうか。
２～３というのが多いようである。また、検索の精度を上げるために、文字列索引に加えて、用語索引的手法も併用されているようである。
p.119　SGML文書のインデクスについて
どれも、T1が開始タグとして記録されている。なぜT1が開始タグなのか、なぜT1が必要なのかよく分からない。