TOP > 勉強会 > 2000年度 > / Last update: 2008.1.1

整理技術研究グループ勉強会記録(2000年度)

「マークアップ言語とメタデータ」第10〜15回

『XML入門』輪読


◎マークアップ言語とメタデータ勉強会第10
日 時:2000年7月14日(金)19:00〜20:30
会 場:日図研事務所
内 容:村田真『XML入門』 日本経済新聞社 1998.1
      第1,2章。「なぜXMLが必要なのか」「XMLのアプリケーション」
発 表:渡邊隆弘(神戸大学図書館)
出 席:吉田(帝塚山学院大学)、田窪(近畿大学)、蔭山(帝塚山大学図書館)、尾松(奈良県立図書館)、村井(システムズ・デザイン)、堀池(京都大学大型計算機センター)、渡邊(神戸大学図書館)
●第1章「なぜXMLが必要なのか」
★HTMLにおける論理構造表現(1.1、1.2)
・現在のHTML規格では、論理構造とレイアウトの分離が推奨されている
・筆者はHTMLの限界を、基本的に表示のためのシステムであるために  業務システムに用いるには完全でないとしている。よくいわれがちな「HTMLは構造とレイアウトが分離していない」という論法ではない
・「構造表現」には抽象的なレベルの構造(階層構造など)と、さらに個々の要素(タグ)の意味をも問題にする具体的なレベルの構造があるのでは。HTMLでは汎用的なタグしかないから前者しか表せない
★分散型データベースシステムとXML(1.3)
・p16のようなシステムの必要性はよくわかるが、いずれの場合も受け渡す内容を各システム間で完全合意しておく必要がある。
・お互いに合意して運用するなら、XML形式に特に優位性はなく、たとえばCSV形式などのやりとりでもいいのではないか
・XMLなら不定繰り返しや入れ子構造などが表現できて、柔軟性があるということか。
・そのあたりまで書かないとXMLの優位性を語ったことにはならない
●第2章「XMLのアプリケーション」
★ウエブキャスティング(2.1−4)
・前章からの実例は、いずれも文書(一次情報)そのものではなくメタデータをXML形式でやりとりするものである
・一次情報を力技でなんとかしようというのではなく、コンピュータの世界でもメタデータの必要性がクローズアップされてきているのか
・本節のチャンネル情報や次のソフトウエア情報など、書誌情報のようなものにとどまらないメタデータの多様性がよくわかる
・チャンネル情報の形式は世界標準でなければ運用できない。
 このようなものではタグ名をつけて送るXML形式の優位性が発揮されるか
・ウエブキャスティングは購読情報を最新に保とうということだが、電子図書館ではリンク集作成も重要な任務であり、その効率的な更新とも関連しそうな技術である。
 なお、今回との直接的関連はないが、人文系研究者の目からSGML/XMLの利点を考察した最近の論文が紹介された。
 大矢一志、土屋俊「システムが決まらなければデータベースは出来ない というのは本当か−テキストベースデータモデル利用の提案」『情報管理』43(2) pp.119-130, 2000.5


◎マークアップ言語とメタデータ勉強会第11回
日 時:2000年7月28日(金)19:00〜21:00
会 場:日図研事務所
内 容:『XML入門』第3章「XMLの言語仕様」
発 表:堀池博巳氏(京大大型計算機センター)
出 席:吉田(帝塚山学院大学)、田窪(近畿大学)、戸上(帝塚山学院大学)、蔭山(帝塚山大学図書館)、尾松(奈良県立図書館)、村井(システムズ・デザイン)、堀池(京都大学大型計算機センター)、太田智子(甲南学園)、渡邊(神戸大学図書館)
●「ルート要素」(p57)
・「root」という要素名があるのではなく、文書の最初から最後までを囲むタグ(「診療記録」)をルート要素と呼ぶ
・例では一人分の記録をルート要素としているが、多くの記録を集めたDBを構築するときはどうするのか
 ・「診療記録」を繰り返してよい?(たぶんだめ)
 ・一人一人別ファイル
 ・上位に「診療記録ファイル」というルート要素を作る
●「属性」(p58)
・年月日や性別・年齢などを下位要素でなく「属性」と扱う意味はあるのか
・属性とした場合は画面表示させないといったことがあるのか?
・p61のDTDにおいても、#REQUIRED表現などを使えば下位要素として必要十分な定義が可能なはず
・「下位要素」「属性」のどちらかを選択すればよいという言語仕様だが、DTDとしてどちらが「推奨」されるといった慣習法があるのでは?(そこを明確に書いてほしかった)
・どちらかというと、なるべく下位要素とするほうがすっきりしているのでは?
●「実体と実体宣言」(p66)
・「外部アンパースト実体」「外部パースト実体」「内部パースト実体」は文書に用い、「パラメタ実体」はDTDで用いる
・「外部アンパースト」はHTMLで画像をはりつけるのと同じ考え方
・外部パースト実体は、データ中の重複する部分を外部に出すので、リレーショナルDBでいう「正規化」処理に通じる(という話でしたが...
 正規化はDB構造定義時に行なうものなので、DTDの「外部パラメタ実体」のほうに通じるかも、と今になって思いますが、いかがでしょう?)
・パラメタ実体は、プログラム作成における「構造化」に通じる
●DTDの有無(p62)
・DTDがなくてもよいとなると、そもそもDTDは何のためにあるのか?
・構造が不明でもよいとは思われない。簡単だからといってそんなことをしていては使えないデータになるのでは?
・データをある程度作ってから、DTDを作ることが可能になる。その点で簡便化されているのでは?
●XMLとSGML(p70)
・SGMLにない機能があるのに、「サブセット」だというのはおかしい
・SGMLもXML側の影響をうけて変更されつつあるようだ
・そもそもDTDの不存在を許すというのがSGMLからの逸脱ではないか?そのよし悪しはともかく、「サブセット」という表現は厳密ではない


◎マークアップ言語とメタデータ勉強会第12回
日 時:2000年8月31日(木)19:00〜20:30
会 場:日図研事務所
内 容:『XML入門』第4章「リンクとスタイルシート」
発 表:戸上良弘氏(帝塚山学院大学)
出 席:田窪(近畿大学)、戸上(帝塚山学院大学)、蔭山(帝塚山大学図書館)、前川(堺女子短期大学)、尾松(奈良県立図書館)、村井(システムズ・デザイン)、堀池(京都大学大型計算機センター)、渡邊(神戸大学図書館)
●XLLの新規機能(HTMLとの比較。p.84-)
・機能6「双方向」が言葉としてはわかるが、具体的イメージがわかない
●標準リンク(p.88-)
・図4.7の例では「患者」要素がリンク元となっている。
 HTMLでは一見「患者」からリンクが張られているかのように<A>タグを置くことは可能だが、論理的にリンク元リソースを弁別できない。
・SHOW属性のEMBED(埋めこみ)、NEW(新画面)はわかるがREPLACEとは?
 もとの画面が消えてリンク先リソースが表示されるのか?(HTMLリンクの標準形)
 例ではリンク元リソースは文書全体ではなくあくまで「患者」要素であるから、「患者」のところだけが消えてリンク先画像に置き換わるのではないか?
・ACTUATE属性のAUTOとは自動的にリンク先リソースが表示されることのようだ。それならば、文書記述で外部実体(p.66-)を用いた記述と、実現されることは異ならないのでは? リンクで表現する意味があるのか
●拡張リンク(p.91-)
・図4.9の例には、SHOW属性、ACTUATE属性がない。これは拡張リンクにはそのような属性は定義されないということなのか、単なる省略か?拡張リンクでは自動的に埋めこみ表示するのが標準になっているのかも?
・図4.10の行外リンクについて、リンク先リソースに何らの改変を加えることなくリンクが形成できるので、著作権侵害の心配もないとされている。このように文書の一部を切り貼りして新しいものを作るような場合には、いくらリンク先リソースの変更がなくとも、著作権上の問題があるのではないか?
 「リンクは著作権侵害にあたらない」のが現在のWWW文化の慣行であるが、それでも「フレーム内リンク」(自ページのフレームの一つに他人のページへのリンクを貼って表示)などは著作権上の問題があるとされている。
●ロケータの構文(p.95-)
・すべての機能が紹介されているわけではないようだが、それでもかなりの表現力を持った文法である。
・本書には図がないが、XMLのタグ構造をいったんツリー形に展開して親子・兄弟等を考えるとわかりやすい。兄弟とは? → 出現順だろうと思われる。
 ツリー構造はXML文書部分のみから作れるので、DTDの有無は影響しない。
・#と|(p.96)の区別は?
 サーバから全文書を転送してブラウザでロケータ構文の適用を行なうか、サーバでロケータ構文を適用して該当のリソースのみを転送するかという話である。見た目の結果は全く変わらないが、リンク先リソースがデータベース様の巨大なファイルの場合は大きな意味があるかも
●XSL,スタイルシート(p.99-)
・まだプロポーザル段階の話である。
・CSSのCはCascading(階段状、直列)。様々なレベルでスタイルを設定し、複数の矛盾した設定があった場合の適用ルールがあるというあたりを表した名称か。
・HTMLでは、スタイルシート使用は推奨されているがオプションの機能である。XMLは独自タグなので、スタイルシートなしには表示できないはず。
・本書出版後の動きとして、XSLT1.0(XMLの変換Transormationを行なうための仕様)が1999.11に勧告となっている。
 参考)http://www.infoteria.com/jp/contents/xml-data/REC-xslt-19991116-jpn.htm


◎マークアップ言語とメタデータ勉強会第13回
日 時:2000年9月21日(木)19:00〜20:30
会 場:日図研事務所
内 容:『XML入門』第5章、第6章「XMLのツール」「アプリケーションの構築方法」
発 表:蔭山久子氏(帝塚山短期大学図書館)(予定)
出 席:吉田(帝塚山学院大学)、蔭山(帝塚山大学図書館)、篠原(帝塚山大学図書館)、堀池(京都大学大型計算機センター)、太田(甲南学園図書館)、渡邊(神戸大学図書館)
●特定のアプリケーション専用のエディタ(p.121-122)
 ・「メタデータ専用」エディタとはどのようなものなのか?
 ・数式専用、テーブル専用などはよくわかるが、簡略なメタデータを作るのに
  専用エディタが必要なのか?
●ブラウザ(p122-123)
 ・1998.1出版の図書なのでSGMLブラウザなどをまず第一にあげているが、現在では
  Internet ExplorerはXMLに対応済である。
  化学式のような特殊な用途のブラウザは残るだろうが、汎用的にはWWWブラウザで
  対処するようになるだろう。
●サーバ(p.126-127)
 ・WWWサーバはどんな形式のファイルでも転送できるので、普通はそれだけあればよい。
 ・XML用のサーバが必要になる例として「ロケータに対応」があがっているが、これは
  p96のロケータ指定「|」実現のためである。文書の一部分を指定して要求する場合、
  現在のHTMLのように文書全体をサーバから転送してクライアント側で該当ヶ所を探す
  のではなく、サーバであらかじめ必要部分だけを抽出転送することが可能になる。
●パーサ(p.128-129)
 ・SGMLにもよく登場したが、これまでは文書の整合性やDTD対応をチェックする道具
  という書かれ方が多かった。
 ・ここでは「文書を解析し、属性を持った要素の木構造を作成する」ことが第一である
  としている。より拡張された表現といえる。
●コンバータ(p129)
 ・DynaTagの画面を見る限り、フォント情報などをある程度作業者が条件指定しながら
 (ゴシックなら見出しにするとか)変換ルールを作っていくようだ。
●ビューワ(p132)
 ・ブラウザとどう違うのか?
 ・論理構造を利用した検索などに特長があるらしいが、あえてブラウザと分けて
  呼ぶ必要があるのかは疑問。
●アプリケーション構築のステップ(p139)
 ・クライアント側プログラムとは、作ったものを利用者に配布するイメージか?
 ・そういう場合も考えられるが、そうでない場合も想定できる。
   例)XML形式の書誌データを受取って自館むけに変換取り込み
  この場合、受取るデータは一定でも、各館ごとに独自仕様の変換プログラムの可能性
●週報の表示(p149-)
 ・クライアント側プログラムがHTML形式への変換を行って表示することになっているが
  (p153)、現在ではWWWブラウザがXML対応しているので、画面表示するだけなら
  クライアント側プログラムは不要であろう。(文書とスタイルシートがあればよい)


◎マークアップ言語とメタデータ勉強会第14回
日 時:2000年10月13日(金)19:00〜
会 場:日図研事務所
内 容:『XML入門』第7章「構造化文書としてのXML」
発 表:吉田暁史氏(帝塚山学院大学)
出 席:吉田(帝塚山学院大学)、戸上(帝塚山学院大学)、田窪(近畿大学)、蔭山(帝塚山大学図書館)、堀池(京都大学大型計算機センター)、村井(システムズデザイン)、太田(甲南学園図書館)、尾松(奈良県立図書館)、渡邊(神戸大学図書館)
●論理構造の導入とレイアウト情報の分離(p.158-160)
・「論理構造」という表現には違和感がある。
・必ずしも「論理的な構造」を表現するとは限らない。「文書構造」のほうがよいのでは
・p160で著者は論理構造のみを考え、ページ割り付けなどは意識しないとあるが、文学作品などを考えると必ずしもそうは言いきれないのではないか
●出版の多様性(p164)
・LaTeXが出てくるが、TeXとLaTeXの関係は?。SGMLやXMLとどう違うのか。
・TeXのマクロの一つがLaTeX。文書構造を表現してタグ付けしていくところは同じだが、XMLと比べると文書構造とレイアウト表現の分離が明確でないように思われる。(あくまで印刷を前提としたシステムのため)
●的確な情報検索、派生文書の自動生成(p165-167)
・例にあがった医療情報などのデータベースは、これまでならリレーショナルDBで表現されることが多かったものである。ワープロ文書との比較で優位性を語っても仕方ないのではないか?
・データベースという以上、レコード群に対してデータベース演算を考える必要があると思われる。リレーショナルDBでいえば、「情報検索」の例は選択演算、「派生文書」の例は射影演算である。XMLデータベースではどのような演算が可能なのか、リレーショナルDBではできない演算が可能なのか、を説明してほしい。
●SGMLの問題点とXMLによる解決(p167-170)
・「SGMLの問題点」の最初の2つはわかるが、「DTD作成の難しさ」「論理構造作成の難しさ」
「既存文書からの変換の難しさ」は、いずれもXMLと比較しての問題点とはいえない。
・「XMLによる解決」も最初の2つは「問題点」と対応しているが、あとは答えになっているとは言い難い。
・DTDがなくてもいいといってしまうのでは、マークアップ言語の自己否定ではないか?対象を論理的に分析してスキーマを定めることは、マークアップ言語でなくとも、まとまったデータを作成するときには必須作業のはずである。
●名前空間(p171-173)
・発表者から事例を含んだ追加資料が配布された。
・名前空間の概念は複数DTDを同時に使用する際に、タグ名の衝突などを避けるために、DTD名をタグ名に冠する形で表記するものである。
・複数DTDを並列して使用するのでは、文書全体がroot要素からの一つのツリーになるというDTDの原則が守られないのではないか?
・p69の「外部パラメタ実体」との関連がよくわからない。


◎マークアップ言語とメタデータ勉強会第15回
日 時:2000年10月31日(火)19:00〜20:30
会 場:日図研事務所
内 容:『XML入門』第8章「RDFとDOM」
発 表:渡邊隆弘氏(神戸大学図書館)
出 席:吉田(帝塚山学院大学)、戸上(帝塚山学院大学)、田窪(近畿大学)、蔭山(帝塚山大学図書館)、堀池(京都大学大型計算機センター)、村井(システムズデザイン)、太田(甲南学園図書館)、尾松(奈良県立図書館)、渡邊(神戸大学図書館)
 第8章はどうも難しく、発表者もよく理解できていないので、少し生煮えのまま終わってしまいました。
●メタデータと書誌情報
・プッシュ型情報送信のためのチャネル記述であるCDFが例にあがっている。
 「メタデータ」は通常図書館情報学の扱う書誌情報よりはずっと広義の概念である。
●RDFの用語について(p.180-182)
・「タプル」「アサーション」といった耳慣れない用語が出てくる。
 最新仕様 http://www.w3.org/TR/REC-rdf-syntax/と照らすと、本書出版から3年の間に仕様が大きく変更されている。
 「タプル」にあたる用語は「ステートメント」に「アサーション」にあたる用語は現在の仕様に見当たらない
 1リソースに対する記述全体は「ディスクリプション」である。
・「タプル」はリレーショナルDBで使われる用語。
 意味が混乱するので、使われなくなってよかったのではないか
●PropertyとAttribute
・「著者」といったリソースの各要素を「プロパティ」と呼ぶ。
 訳すなら「属性」かと思うが、XMLではタグの付加情報に「アトリビュート」を用いる。
 こちらも「属性」としか訳せない。
 そもそも原語に意味の違いはあるのか
●スキーマとは
・特定用途への利用には、まず「スキーマ」を作るとp183にある。
 スキーマは「プロパティ型や値として何を許すか」を規定するものとある。
 目録規則に相当するのがスキーマか?
 抽象度の度合いがいまひとつわからずイメージがつかめない。
 RDFにはスキーマ記述の仕様も構文仕様とは別にあるようだ。
●名前空間
・RDFではXMLの名前空間利用により、準拠規則が明確になるとともに、複数規則の併用も可能になる。この点で名前空間が非常に重要な概念だと理解してきた。
・ところが、本書では例には名前空間がつかわれているが、8章には何の記述もない。
●DOM
・これはプログラミング言語とどう違うのか、抽象度の度合いがわからない。
 木構造を扱う仕組が中心か?