情報組織化研究グループ月例研究会報告（2022.04）

「マンガの内容に基づく探索のための主題語の機械的付与の試み」

三原鉄也氏（ITコンサルタント/（一社）コネクテッド社会研究機構）

日時：: 2022年4月16日（土）14：30～16：00
会場：: （Zoomミーティング）
発表者：: 三原鉄也氏（ITコンサルタント/（一社）コネクテッド社会研究機構）
テーマ：: 「マンガの内容に基づく探索のための主題語の機械的付与の試み」
出席者：: 荒木のりこ（大阪大学附属図書館）、石村早紀（株式会社樹村房）、今野創祐（京都大学）、岡田大輔（相愛大学）、木村麻衣子（日本女子大学）、坂本登代子、佐藤久美子（国立国会図書館）、塩見橘子、柴田正美（三重大学名誉教授）、下山朋幸（国立精神・神経医療研究センター図書館）、田窪直規（近畿大学）、徳原靖浩（東京大学附属図書館）、長瀬広和、中道弘和（堺市立図書館）、南雲知也（(株)ブレインテック）、野村知子（久留米大学非）、橋詰秋子（実践女子大学短期大学部）、ハタハジメ（フリーランス）、福田一史（大阪国際工科専門職大学）、松井純子（大阪芸術大学）、三崎絵美（明治大学米沢嘉博記念図書館）、光富健一（INFOSTA）、森原久美子（秀明大学図書館）、和中幹雄、他7名、三原＜32名＞

1.はじめに

　発表者の自己紹介があった。専門はマンガ/メディア芸術のメタデータ・ディジタルアーカイブであり、現在は専門・研究に関連するIT関連事業のコンサルタントとして勤務し、博士課程在籍時からフリーランスでマンガ/イラストの制作に携わっている。
　マンガメタデータに関する研究は、マンガの内側に関する研究と外側に関する研究、データを使って作る研究とつないで作る研究に分かれる。
　最近の発表者は高度な閲覧環境の開発などいくつかの研究をしているが、詳しくは発表者のresearchmap をご覧いただきたい。　https://researchmap.jp/mihara40
　発表者とメディア芸術データベース（MADB）との関わりであるが、メディア芸術所蔵情報等整備事業ほか（2016～）のアドバイザ・タスクチームメンバとして分野横断のためのメタデータモデルの設計、助言をおこなったり、メディア芸術アーカイブ推進支援事業（2019～）の協力者会議委員をつとめたりしている。
　メディア芸術データベース（ベータ版）https://mediaarts-db.bunka.go.jp/　は、日本で唯一の、公的機関（文化庁）が提供するマンガ/アニメ/ゲーム作品の存在情報・所蔵情報を包括的に対象にしたデータベースである。各連携機関のデータを集約することでデータを作成している。このデータベースは、FRBRやIFLA-LRMを意識して設計されており、日本国内での同様の規模のものでは数少ない事例にあたるものである。

2.マンガの内容に基づく探索のためのNDC-LDとのリンキング

2.1　はじめに

　図書館においてマンガを内容に即して分類したり標目を付与している事例は、国内ではほぼ見られない。日本目録規則（NCR）では推奨もされておらず、内容に関するメタデータを整備することはコストが高く現実的でないことが背景にあると考えられる。マンガを扱う多くの公共図書館・専門図書館も内容分類はほぼ無い。海外ではマンガ所蔵自体が僅少だがOCLC WorldCatや台湾市立図書館中崙分館といった例では分類やレーティングをおこなっている。
　書店においても、マンガの内容分類・標目はほぼ機能していない。Cコード（販売対象・発行形態・内容を4桁の数字で表現するコード）においても、マンガはほとんどが9979（雑誌扱いコミックス）か0079（一般扱いコミックス）である。
　Web上のマンガの探索は書誌情報（タイトル、著者名、出版社など）や主題語（タグやキーワードなど。マンガの内容に基づく検索に利用）によってなされる。主題語による検索の問題点として文字列が一致しないと検索にヒットしない場合が多い。主題語のラベルになるべく依存せず、意味に基づいた検索でヒットすることが重要である。加えて上位・下位概念や類義語などによる検索や、完全に一致する単語だけでなく関連した単語からマンガが見つかることが重要である。
　そこでこの研究の目的は、NDCの分類項目の見出し語等を主題語として、マンガに対してその内容に適合するものを機械的に付与・関連付け（リンキング）することである。このことにより、NDCの階層構造に基づき、上位・下位概念や類義語など主題語の意味を活かした検索が可能となる。また、マンガの間に主題の意味に基づいた関係を持たせたいという意図もある。より具体的には、内容に基づいたマンガの分類のため、マンガに付与されている内容を表す記述としてタグ及びあらすじの2種の情報源を利用してNDC分類項目と機械的に結びつける。
　マンガへのNDC付与に関する事例として、「これも学習マンガだ!」がある。学習のきっかけになるようなマンガ作品の選出を行うプロジェクトであり、選出された200作品をNDCで分類するワークショップが行われた。基本的には第3次区分まで、その場で第4次区分以降までの分類が可能なものは可能な限り加えており、作業者によって方針に差があった。議論しながらマンガに対して分類の検討には時間を要し、多数出版されるマンガについて人手での分類は困難であることがわかる。
　マンガとNDCの機械的なリンキングとして、以下の2つの手法を検討し評価した。
手法①：電子書籍ストア等のタグ（内容を表すものとして最も単純なもの）を利用したマンガとNDCのリンキング
手法②：あらすじ（人間がマンガに目を通し、その内容を基に書いているもの）を利用したマンガとNDCのリンキング
　評価手法だが、「これも学習マンガだ！」に人手で付与された分類を正解データとして利用する。正解データとの一致度により2つの手法を比較し、既存のサービス(NDC Predictor)との比較をおこなう。技術的特徴として、Linked Data版日本十進分類法(NDC-LD)を利用する。これはWeb上でのNDCの利活用を目的として日本図書館協会とNDLの共同研究により開発されたもので、機械可読なRDF形式のLinked Dataとして提供されている。

2.2　タグを利用したマンガとNDCのリンキング

　電子書籍ストアでマンガに付与された「タグ」「キーワード」といった主題語とNDCの相関索引語のマッチングによりマンガとNDCの分類項目を結びつけた。主題語とNDCの分類項目の相関索引語のレーベンシュタイン距離を用いて文字列の類似度を算出した。本手法では0.6より大きい場合にリンキングした。一例として、「783.3 ハンドボール.ドッジボール」に対して「ハンドボール」や「ドッジボール」といった主題語が結びつく。
　「これも学習マンガだ！」200作品のうちタグを取得できた152作品について実際に分類を付与した。NDCの付与結果であるが、付与不可が36.8％にのぼった。人手で付与した分類と一致しない作品と、NDCと結びつかない作品が約半分を占めた。完全一致・より詳細は13.2５であり、マンガとNDCを結び付けるにはタグだけでは不十分だった可能性が示唆された。

2.3　あらすじを利用したマンガとNDCのリンキング

　次に、マンガの内容を表すもの＝あらすじを利用することを考えた。このことによってタグ利用の情報量の不足の解決を目指す。また、あらすじは人間がマンガに目を通し、その内容を基に書いているため、実際に読まないとわからない情報(=マンガを読むことで感じ取れるマンガの主題)が含まれ得ると判断した。あらすじはこのような情報を整理し言葉で表したものであるため、主題に即した結びつけが行いやすい。一方であらすじには主題と無関係な単語も多く含まれるので、主題を表すような単語を自動で抽出することを目指す。そのため、以下の手順を踏んだ。
①情報源となるの取得：あらすじをマンガペディアからWebスクレイピングにより取得し人物名など不要な単語を除去した。
②NDCの関連単語抽出：Web NDL Authoritiesから標目、同義語、上位語、下位語、関連語を取得しNDCLDを拡張した。また、各マンガのあらすじからNDCの見出し語、相関索引語、拡張した単語を取得した。
③NDC-LDとのリンキング：TF-IDFを計算し、各マンガの単語集合をそのマンガの特徴を表す順に並べた。NDCの分類記号を用いて各マンガの単語集合に共通の概念を探し、あれば上位にした。最上位の単語と関連付けられた分類をそのマンガの分類とした。
　マンガペディアのあらすじを利用した理由であるが、専門家がマンガを読んだうえで執筆したマンガ・アニメの総合百科事典であり、内容や語彙が統制されており主題語とのリンキングに適していると判断した（タグは作品特有、ジャンル特有の単語が多い）。「これも学習マンガだ！」200作品のうち、146作品のあらすじを取得した。
　また付与不可が０となり、これはタグを利用した手法に対し優れた結果と言える。

2.4　評価

　タグを利用した手法は約46%、あらすじを利用した手法は約60%のマンガに対して人手によるものと類似したNDC分類項目とリンキングできた（一致度にばらつきはある）。あらすじを利用した手法のほうが、完全一致、より詳細なNDCがリンキングできた割合が多く、一致しなかった作品とNDC分類項目とリンキングできなかった作品の合計が減少しており、より人手による分類に近いリンキングができていると言える。あらすじを利用した手法では対象とした全作品に何らかのNDC分類項目とリンキングできた。

2.5　考察

　タグを利用した手法とあらすじを利用した手法を比較すると、あらすじを利用したことによる情報量の増加が影響していると考えられる。マンガペディアのあらすじの内容や語彙が統制されていることにより平等な条件の下で十分な量の単語を得ることができた。タグは作品特有、ジャンル特有の単語が多く、NDCと結びつかない。あらすじを利用することで、マンガに付与されているタグの不足やNDCの相関索引と結びつかないタグの存在など、タグを利用した手法の問題点が改善された。
　一致またはより詳細なNDC分類項目とリンキングができた36作品(24.7%)は、芸術、音楽、スポーツなどが主題のものが多かった。競技名や楽器名はNDCの見出し語や相関索引語である場合が多く、これらを主題とした作品以外にはあまり現れないことが多く、マンガ特有の単語となりやすいことがその要因として考えられる。
　分類記号が部分的に一致したものとリンキングできたケースは51作品(34.9%)であった。これらは人手での分類の詳細さを提案手法で再現できていないものや、上位概念は一致するものの完全には分類が一致しないものであった。提案手法ではあらすじに含まれない単語からの分類は困難であり、ずれにつながった。分類記号が一致しないものとリンキングした59作品(40.4%)は、無関係な単語がTF-IDFの結果最上位になってしまったケースや、関連性の高い単語は得られたものの分類記号は一致しなかったケースである。
　以上から、あらすじからマンガの内容を表現している単語はおおむね得られていると言える。不要な単語の除去の効果や、Web NDL AuthoritiesによるNDCの拡張によりリンキングしやすくなったことがその要因として考えられる。

2.6　NDC Predictorとの比較

　NDLラボが提供する機械学習によりNDCを推測するサービス、NDC Predictorとの比較を行った。このシステムではユーザから与えられた書誌情報からNDCの分類を第三次区分まで推測することが可能であり、確信度の高いものから順に第一候補から第三候補まで表示される。
　提案手法による分類項目のリンキング結果とNDC Predictorによるあらすじからの分類推測結果の人手での分類との一致度を第三次区分まで比較した。タグを用いた提案手法に関しては分類の候補が一つであるため第一候補と比較し、あらすじを用いた提案手法は結果の上位3つと比較した。
　結果、提案手法のほうが人手での分類と完全一致した作品数がNDC Predictorと比較して多いことがわかった。特にあらすじを利用した提案手法はNDC Predictorよりも人手で付与した分類に近い分類が付与できていた。

2.7　課題・展望

　あらすじから単語を抽出する際に、文字列の一致による抽出では文章や単語の一部が一致してしまう点を解決しないといけない。対策として、あらすじから形態素解析等により名詞のみを抽出し照らし合わせるなどが考えられる。
　あらすじから取得した単語が複数のNDC分類項目や相関索引語等に含まれる際、最適な分類を機械的に選択できるようにする必要がある。本研究では目視により選択したが、機械的にできるようにすることが望ましい。
　あらすじから取得した単語の集合に共通した概念を利用することも考えられる。このことにより、抽象的な主題を持つマンガへのリンキングの精度が向上する可能性がある。
　人間が作品を実際に読まないと感じ取ることができない主題やあらすじに現れない全体を通した抽象的なテーマ・概念をどのように関連づけするかが課題である。

3.マンガのNDLへの納本率とMADBにおけるカバー率の推定

3.1　MADBのLODデータセット公開

　MADB Lab（メディア芸術データベース・ラボ）https://mediag.bunka.go.jp/madb_lab/では、MADBで公開されているすべてのデータを対象としたLinked Open Data形式でのデータセット・SPARQLエンドポイントを提供している。GitHubでも公開しており　https://github.com/mediaarts-db/dataset　利活用事例を募集している。データの間違い・不備の検証も進めている。ここではそれらの利用方法の一例として、講演者が実施した、マンガの保存状況に関する調査を紹介する。

3.2　マンガはどのくらい保存されているのか？

　国立国会図書館（NDL）をはじめとする日本の図書館についてマンガの保存状況に先行研究はあるものの、これらはいずれもサンプリングや時期を絞った調査に留まっており、全数あるいはそれに近い規模の集団を対象にした調査は行われていない。その実態は十分に明らかにされ認知されてはいない。
　MADBマンガ分野のデータの特徴として、NDLおよびマンガ専門図書館等の書誌データをアグリゲーションして生成されている。書誌・所蔵情報はデータセットを用いて容易に取得可能であり、単行本・雑誌ともに単行資料単位での書誌記述となっている。MADBのデータセットを用いて長期間・全数網羅的なマンガの所蔵状況の調査が可能ではないかと考えた。
　しかしこの際、年ごとのマンガの新規発行点数をどう明らかにするのかという課題がある。出版分野の網羅的なデータは不足している。出版指標年報（刊：出版科学研究所）は出版点数・売上に関する統計であるが、マンガ（コミック）は単行本1978年から、雑誌1965年からとなっている。出版年鑑（刊：出版ニュース）は年ごとの販売全タイトルリストだが、1950年発行開始、2019年刊行終了となっている。また、マンガの出版物とみなす基準はデータ・連携機関によってバラバラであり、雑誌にはその内容にマンガを扱っていることを示すメタデータは存在しない。
　データ作成指針として、単行本については1950～1977年は出版年鑑、1978年以降は出版指標年報を採用し、雑誌については出版指標年報の週刊/月刊タイトル数にMADB登録された週刊誌/付刊誌の年別の平均発行点数を乗じて推定した。この指針を採ったとしても基準の揺れ・曖昧性は排除できないため、今回の調査による数値はあくまでも推定として扱うべき点には注意が必要である。

3.3　結果及び考察

　NDLの全体的な推定納本率は先行研究と同程度であった。先行研究では単行本で70%前後であったが、おおよそ±5ポイントの揺れとなっている。
　新刊発行点数及びNDLおよびマンガ専門図書館の推定納本率・カバー率が年次で算出できたことに加えて、それらの推移傾向が実際の事象である程度説明可能であることから、戦後出版されたマンガについて、出版点数の推移（要求されるデータ整備の規模）と大方の納本や保存の状況を明らかにしたと評価できる。MADBの登録基準と各種統計の計上基準の曖昧さがあり、各データの基準に関する追跡調査が必要である。算出基準の精緻化によるデータのフィルタリングが必要であり、比較するデータの追加も必要である。

　以上の発表を受けて、長編のマンガの場合、途中で内容が変わる可能性があるが、その場合はどのように判断したか、分類ではなく件名を付与した方が一般の利用者による検索には役立つのではないか、「分類」と「主題語の付与」の目的や在り方の違いについて等の質疑があった。

なお、今回の月例研究会については、Zoomの映像を録画し、開催後一週間に限り、出席を申し込んだものの欠席された方にも、映像を配信した。

（記録文責：今野創祐）

情報組織化研究グループ月例研究会報告（2022.04）

「マンガの内容に基づく探索のための主題語の機械的付与の試み」

三原鉄也氏（ITコンサルタント/（一社）コネクテッド社会研究機構）

1.はじめに

2.マンガの内容に基づく探索のためのNDC-LDとのリンキング

2.1 はじめに

2.2 タグを利用したマンガとNDCのリンキング

2.3 あらすじを利用したマンガとNDCのリンキング

2.4 評価

2.5 考察

2.6 NDC Predictorとの比較

2.7 課題・展望