TOP > 勉強会 > 2000年度 > / Last update: 2008.1.1

整理技術研究グループ勉強会記録(2000年度)

「マークアップ言語とメタデータ」第1〜6回

『SGMLの活用』輪読


◎マークアップ言語とメタデータ勉強会 第1回
日 時:2000年1月13日(木) 19:00〜21:00
会 場:日図研事務所
内 容:根岸正光、石塚英弘共編『SGMLの活用』 オーム社, 1994.12
      第1章「SGMLの考え方」
担 当:前川和子氏
出 席:前川和子、田窪直規、蔭山久子、村井正子、戸上良弘、吉田暁史、渡邊隆弘、山本伸一
主な討議
●階層構造と非階層構造(1.5)
・論理的には注や参照文献も階層構造といえるのではないか?
「脚注」「巻末注」などは出力の仕方にすぎない
・DTDにおいては、特定要素の下位だけでなく、どこにでも位置
できるfloating項目を「非階層」と呼んでいる
●マルチメディア(1.5.3-4)
・定義例を見る限り、やはりテキストが主で、図や表は従である。
●電子図書館とSGML(1.5.5.)
・すべての文書に対応するDTDは作れないということは、
電子図書館においては問題である。
図書館は資料の書式・表現をあるがままに受け入れて、
規制などは行わない仕組みであるから。
・外部から様々なSGML文書を取り込んでいく方向があるのではないか。
・異なったDTD間の互換性が問題


◎マークアップ言語とメタデータ勉強会第2回
日 時:2000年1月27日(木)19:00〜20:40
会 場:日図研事務所
出 席:吉田(帝塚山学院大学)、田窪(近畿大学)、前川(堺女子短大)、戸上(帝塚山学院大学)、蔭山(帝塚山短大図書館)、篠原(同前)、村井(システムズ・デザイン)、尾松謙一(奈良県立図書館)、渡邊(神戸大学図書館)
内 容:「SGMLの活用」第2章 SGMLと電子出版
発 表:蔭山久子氏
主な討議
●DTP、WYSIWYGとSGML(2.1.4, 2.1.5)
・DTPソフトの多くがSGML入出力インターフェースを備えているとあるが、
出力の際のDTDはどうなるのか?
・真に論理整合のとれたSGMLが出力できるわけではないだろう
・WYSIWYGは現在では当たり前になっており、あまり唱えられない。
5年前の記述なのでやや古くなった感がある。
●マルチメディア情報における「時間軸」(2.2.3)
・SGMLは二次元空間(印刷)の記述に実績があるので、時間軸を加えた
マルティメディア(動画・音声)も「問題なく」記述できるとある。
飛躍があるのではないか?
・動画や音声を外部ファイルとして扱う場合、再生開始位置は制御できても
その後は制御できないので「時間軸」を扱えたとはいえないのでは
・SGML上で可能な技術があるのかもしれないが、示されていない。
●文書構造の設計(2.3.1)
・一度決めたら基本的に変えてはいけないが、与件の変化もありうるので
「変更を前提とした設計」が必要だとある。具体的にどういうことか。
・一部の変更が全体に極力波及しないようにする。
プログラミングで「構造化」と呼ばれているようなこと、いわば「構造化DTD」
といった設計が必要なのだろう。
●SGML文書の入力(2.3.3)
・SGMLエディタの例があるが、DTDによって表れるタグが異なるという状況
の中で汎用エディタはどのように入力者を支援できるのか
・単一のDTDを扱うHTMLエディタのように行き届いたWYSIWYGは困難だと
思われる。タグ知識が全くなくてもできるということにはならないのでは。
・DTDが多様といってもある程度の標準要素はあるので、普通の文書なら
一定の支援ができるのではないか。
●組版変換(2.3.5)
・46ページのなかほどで文書構造の変換について、「一つの要素を内容に
よって分割、統合」するとあるが、最小単位である「要素」を内容によって
自動的に分割できるとは思われない。具体的に何をさしているのか。
以上
★文献紹介
「情報管理」の最近号にSGML/XMLの基本解説があります。
加藤、水野「SGML/XML作成技法(講座情報の電子化技術 第9回)」
『情報管理』 42(9), 1999.12. pp.777-789
加藤、掘、水野「XMLの処理と活用事例(講座情報の電子化技術 第10回)」
『情報管理』 42(10), 2000.1. pp.876-886


◎マークアップ言語とメタデータ勉強会 第3回
日 時:2000年2月17日(木)19〜21時
会 場:日図研事務所
出 席:吉田(帝塚山学院大学)、田窪(近畿大学)、前川(堺女子短大)、戸上(帝塚山学院大学)、蔭山(帝塚山短大図書館)、篠原(同前)、村井(システムズ・デザイン)、鈴木真紀(同前)、尾松(奈良県立図書館)、渡邊(神戸大学図書館)、光斎重治(愛知大学)
内 容:「SGMLの活用」第3章 SGMLとデータベース
発 表:戸上良弘氏(帝塚山学院大学)
●3.1.一次情報の電子化
図3.2の説明で、「共用するための見方が概念スキーマ」とあるが、共用というより「構造化するため」ではないか?
●3.4.複雑な構造を持った文書のサポート
p59−60の(1)〜(5)の分けかたがしっくりしない
●3.5.DQLの設計
<出現標識><取り出し方向>など、システム上で固有の意味を持たされているらしい用語が断りなく出現するので、意味がとりづらいところがある。
SQLを拡張したものだといった記述があるが、著者も最初にことわっているようにSQLの完全上位互換ではないので、適切ではないのでは
●SQL/MMプロジェクト
DQLも含めて、リレーショナルDBのSQLとの対比で語られているが、
近年研究の進んでいるODBC(オブジェクト指向DB)との関係はどうなのだろうか。


◎マークアップ言語とメタデータ勉強会第4回
日 時:2000年3月2日(木)19〜21時
会 場:日図研事務所
内 容:「SGMLの活用」第4章「SGMLのソフトウエア」
発 表:渡邊隆弘氏(神戸大学)
出 席:吉田(帝塚山学院大学)、田窪(近畿大学)、前川(堺女子短大)、戸上(帝塚山学院大学)、蔭山(帝塚山短大図書館)、篠原(帝塚山大学図書館)、村井(システムズ・デザイン)、尾松(奈良県立図書館)、 渡邊(神戸大学図書館)、光斎(愛知大学)
★SGMLソフトウエアについて
●4.1.SGML関連ソフトウエアの位置づけ
p74の「フォーマティング」とp75の「フォーマット」は意味内容が異なっているのに同じ用語を使っており、不適切ではないか。
p75の「自動タグ付け」はどの程度の性能があるのか
・統一的なフォーマットを最初から意識して作られた文書群にしか有効でないのでは。
・文書構造をある程度自動的に解析して、DTDを仮生成するくらいのことは技術的に可能ではないか。
・Wordから自動生成したHTMLなどから推測すると、レイアウトを論理構造に変換することは予想外に困難なことかもしれない。
p77で「TeXやdBASE」への変換とあるが、どういうイメージか
・XMLではデータベースとのリンクで,DBの内容変更を即座に反映するようなことができるので、そういうイメージであろう。
●4.2. SGMLプロダクツ
p82に「文字符号への配慮」があるが、少しわかりにくい
・文書記述ではなく、タグ名に日本語を用いる場合の話である
・文字セット指定などで宣言することはできないのか?
「一太郎Ver.8」の「SGMLエクステンション」試用報告
・基本的にはp83のSGML PLUSと同様に選んだタグが画面に表示されるインターフェース
・タグ指定と特定の書式の間に予めリンクをはっておき、タグを意識せずに入力していく(一種の「最小化技法」)こともできる
・文書入力前にDTDのチェックをしてくれるようだ。
★HyTimeについて
補足資料として以下の論文を配布し、あわせて検討した
今郷詔「SGML関連規格 HyTime」『Computer today』 86, 1998.7. pp58-63
●HyTimeの機能と位置づけ
テキストは、定義や機能の説明が分散しており、非常にわかりにくい記述である。
・SGMLとアプリケーションとの橋渡しをする「メタDTD」という位置づけである。
・ハイパーリンク機能、ロケーション指定機能というリンク系の機能と、時間依存情報を管理する同期機能の2機能とみることができそうだ
p91以下の6モジュールの説明がわかりにくい。
・「計測」「スケジューリング」「描出」という順序で時間情報管理が行われていると思われるのに、説明の順序が違うのが一因では
●リンク機能に関して
p91の「ハイパー文書の構造」定義と図
・ハイパー文書には常にハブ文書が必要なのか?
・ハイパー文書の定義ではなく、「HyTimeで扱われるハイパー文書」というつもりで書かれているようだ
p95「Iリンク」
・HTMLが実現しているような単純なリンクだけではないということだが具体的イメージがつかめない。
・いくつでもリンク端がもてるとはどういうことか?
●同期機能に関して
p87「時変情報」 p93「座標軸を量子の順序付き集合とする」
・耳慣れない用語、表現であるが、一般的に使われる言い方なのか?
「座標」とは何次元なのか?
・静止画の2次元と時間情報の3つか?
・ビデオのノンリニア編集を考えると、様々なチャンネルにオブジェクトを割り付けて編集していくことができる。そうしたイメージでは
・そうするとチャンネル=次元とも考えられ、次元数を固定するような概念ではない。


◎マークアップ言語とメタデータ勉強会第5回
日 時:2000年3月23日(木)19〜20:30
会 場:日図研事務所
内 容:「SGMLの活用」第5章「わが国におけるSGML関連の標準化」
発 表:篠原寛頼氏(帝塚山大学図書館)
出 席:吉田(帝塚山学院大学)、田窪(近畿大学)、前川(堺女子短大)、戸上(帝塚山学院大学)、蔭山(帝塚山短大図書館)、篠原(帝塚山大学図書館)、村井(システムズ・デザイン)、光斎(愛知大学)、渡邊(神戸大学図書館)
●5.2.わが国におけるSGML関連の標準化
日本語化の記述があるが、漢字を使うことによって何が変わるのかわかりにくい
・文字コードは文書の論理構造とはいえないので、SGMLで扱うべきなのか
(実用的に文字コードの宣言が必要なのはわかるが)
●5.3.SGMLの応用規格
p108ー109EMP規格の例について
・どのレベルまで標準化しているのか(タグ名も規定しているのか?)
・メタデータはある程度詳細だが、本文部分は階層構造を定義しているだけ
これで標準化といえるのか?
p110 SQLでは文書構造を意識した検索は難しいとあるが、なぜか
・SQLはRDBを前提としており、フラットな表を扱うもので入れ子のような
構造は想定していない
p110 SISTとSGMLを並列させた記述があるが、おかしいのではないか?
●5.4. わが国での応用例
レイアウト構造と論理構造が混在している
・特許システムの「制御機能タグ」や国会会議録の「縦書き」記述など
・実用上そうなっているのは理解できるが、本来SGMLは論理構造のみを
扱うはず。そこがきちんとかき分けられていない。


◎マークアップ言語とメタデータ勉強会第6回
日 時:2000年4月14日(金)19時〜
会 場:日図研事務所
内 容:「SGMLの活用」第6章「テキストデータベースとTEI」
発 表:吉田暁史氏(帝塚山学院大学)
出 席:吉田(帝塚山学院大学)、田窪(近畿大学)、前川(堺女子短大)、戸上(帝塚山学院大学)、蔭山(帝塚山大学図書館)、尾松(奈良県立図書館)、村井(システムズ・デザイン)、渡邊(神戸大学図書館)
インターネット上で探索された多彩な資料を配布いただきました。
TEIはこの分野では図書館との親和性が高いものであり、もう少し踏み込んだ勉強が必要と思われますので、その意味でもありがたい資料です。
討議の概要です。
●6.1.テキストデータベースからコーパスへ
コーパスとはどういうものか?
・一貫した基準・構造に則って作られた「例文集」(文章も口語も)である。
・テキストに簡単な情報が付加されたものから、品詞分析が完全になされたものまで構造はさまざま
・語学分野で辞書編集・語学教育研究などに使われる。
・情報科学分野では、自然言語処理の材料もしくはテストコレクションとして使われる。
●6.2.TEIの活動
p122 Encodingの説明で「暗号を記号化」はおかしいのでは
・「暗号化」「記号化」でよい
TEIとは団体名称か規格名称か、どういう位置づけなのか?
・確固とした団体ではない。規格名称としても援用されている。
●6.3.TEIのガイドライン
p127「記述的なマークアップ言語」とは?
・TEIが「記述的」というのはなんとなくわかるが、注にある「規範的」「手続き的」が説明されておらずわかりにくい
p129「文字エンティティ」とは具体的にどういうことか
・特殊文字を翻字なりコードなりで置き換えて入力していく
・その置き換え規則が「パブリックドメインエンティティセット」ではないか
・XMLではUnicodeが前面に出てきているようだ
p130以下でSGML一般と対比してのTEIの特色が見えてこない
・またSGML一般の説明が繰り返されている印象がある
・テキスト種別に応じたタグセットを明確に規定したところに意義があるはず
TEIの適用範囲
・配布資料によると、Prose, Verse, Drama, Speechといった6種類ごとにbase tag setsを規定している
・古典テキストがまず念頭におかれているようだが、学術論文などの現代の一般テキストにも適用可能なのか?
TEIヘッダ
・図書館目録規則よりもさらに分析的で細かな要素分けを行っている。
「源氏物語」の例における「パラグラフ」と「ページ」
・ともにタグ付けされているが、ページとパラグラフは上位・下位の関係にはないので、階層的な入れ子にならず、互い違いになってしまう。
・古典テキストにはページ情報などが必須なのはわかるが、SGMLの考え方からはやや逸脱している感もある。
・p136等に出てくる「一つのテキストに存在する複数の階層」とは、このページとパラグラフのようなものを念頭においているのか?
・ページとパラグラフはむしろp137の「非連続なデータ処理」では?