昔の事件や人々に関する記録に関心のある歴史家たちは、かつては古い新聞の目録カードをかき分けていたが、次にマイクロフィルムをスキャンするようになり、やがてデジタルリストを検索するようになった。だが現代の技術は、個々の単語や写真に至るまで索引化を可能にした。米国議会図書館では、最新鋭の機械学習を使って1何世紀も前からの新聞記事の写真やイラストをデジタル化し分類する取り組みを進めている。
同図書館の「招聘イノベーター」の座を獲得したワシントン大学研究員であるBen Lee(ベン・リー)氏が主導するプロジェクトNewspaper Navigator(ニューズペーパー・ナビゲーター)では、アメリカの歴史に残る1600万ページぶんを超える新聞の画像を収集しデータを抽出している。
リー氏とその仲間は、昔の新聞や印刷物のデジタル化で先行しているChronicling America(クロニクリング・アメリカ)の仕事に刺激を受けた。Chronicling Americaは新聞のあらゆる内容を光学文字認識(OCR)でスキャンしているが、これはクラウドソース・プロジェクトでもあるため、さらなる分析のための画像の特定や切り出しは人の手が必要だ。ボランティアの作業員は、第一次世界大戦に関係する画像を枠で囲んで説明文を書き写し、画像を分類している。
この限定的な取り組みを見て、リー氏のチームは考えた。「印刷物の画像の特性を生かすものとして、私はそれが大好きでした。そのプロジェクトから生まれた内容の視覚的多様性を見て、純粋に素晴らしいと感じ、米国中の新聞記事を対象にこのような内容を記録できたらどうだろうかと考えたのです」とリー氏はTechCrunchに語った。
彼はまた、ボランティアが作り出したものが、実は機械学習システムのトレーニング用データとして最適であることに気がついた。「これを使ってオブジェクト検出モデルを構築し、あらゆる新聞紙面を読み込ませれば、宝の箱を開けることはできないかと私は自問しました」。
うれしいことに、答えはイエスだった。最初の人力による画像と説明文の切り出し作業を利用し,彼らは、それを自力で行えるAIエージェントを構築した。普通に微調整や最適化のあと、彼らはChronicling Americaがスキャンした新聞記事の完全なデータベースの中にそれを解き放った。
「19日間ノンストップで稼働しました。私が経験した中で最大のジョブです」とリー氏。しかし、結果は驚くべきものだった。3世紀(1789年から1963年)にわたる無数の画像が、それらに本来付属していた説明文から抽出されたメタデータとともに分類されたのだ。この処理が解説されている研究論文は、ここで読める。
説明文が正しいと仮定すると、これらの画像(つい最近までアーカイブを日付ごとに追いかけ、文章をひとつひとつ読んで、片っ端から調べなければ見ることができなかったもの)は、他の言語資料と同じように内容で検索できるようになる。
1870年の米国大統領の写真を探したいなら、もう狙いをつけて何十ページもの新聞を読みあさり写真の説明文の内容を何度も確かめる必要はなく、Newspaper Navigatorで「president 1870」と検索すれば済む。または、第二次世界大戦時代の風刺漫画を見たいなら、日付の範囲を指定するだけで、すべてのイラストが入手できる(彼らはすでに写真を年別のパッケージにまとめていて、その他のコレクションもそうする予定だ)。
下にいくつかの新聞紙面の例を示す。機械学習システムが切り出した枠が重ねられている(注意:帽子の広告が山ほどあり、差別的な内容も含まれる)。
続きはソースで
https://jp.techcrunch.com/2020/05/08/2020-05-07-millions-of-historic-newspaper-images-get-the-machine-learning-treatment-at-the-library-of-congress/?guccounter=1
同図書館の「招聘イノベーター」の座を獲得したワシントン大学研究員であるBen Lee(ベン・リー)氏が主導するプロジェクトNewspaper Navigator(ニューズペーパー・ナビゲーター)では、アメリカの歴史に残る1600万ページぶんを超える新聞の画像を収集しデータを抽出している。
リー氏とその仲間は、昔の新聞や印刷物のデジタル化で先行しているChronicling America(クロニクリング・アメリカ)の仕事に刺激を受けた。Chronicling Americaは新聞のあらゆる内容を光学文字認識(OCR)でスキャンしているが、これはクラウドソース・プロジェクトでもあるため、さらなる分析のための画像の特定や切り出しは人の手が必要だ。ボランティアの作業員は、第一次世界大戦に関係する画像を枠で囲んで説明文を書き写し、画像を分類している。
この限定的な取り組みを見て、リー氏のチームは考えた。「印刷物の画像の特性を生かすものとして、私はそれが大好きでした。そのプロジェクトから生まれた内容の視覚的多様性を見て、純粋に素晴らしいと感じ、米国中の新聞記事を対象にこのような内容を記録できたらどうだろうかと考えたのです」とリー氏はTechCrunchに語った。
彼はまた、ボランティアが作り出したものが、実は機械学習システムのトレーニング用データとして最適であることに気がついた。「これを使ってオブジェクト検出モデルを構築し、あらゆる新聞紙面を読み込ませれば、宝の箱を開けることはできないかと私は自問しました」。
うれしいことに、答えはイエスだった。最初の人力による画像と説明文の切り出し作業を利用し,彼らは、それを自力で行えるAIエージェントを構築した。普通に微調整や最適化のあと、彼らはChronicling Americaがスキャンした新聞記事の完全なデータベースの中にそれを解き放った。
![【AI】米国議会図書館が機械学習で300年ぶんの新聞の画像を抽出し検索可能に [しじみ★]->画像>1枚](https://techcrunchjp.files.wordpress.com/2020/05/newspaper-navigator-scan.jpg)
「19日間ノンストップで稼働しました。私が経験した中で最大のジョブです」とリー氏。しかし、結果は驚くべきものだった。3世紀(1789年から1963年)にわたる無数の画像が、それらに本来付属していた説明文から抽出されたメタデータとともに分類されたのだ。この処理が解説されている研究論文は、ここで読める。
説明文が正しいと仮定すると、これらの画像(つい最近までアーカイブを日付ごとに追いかけ、文章をひとつひとつ読んで、片っ端から調べなければ見ることができなかったもの)は、他の言語資料と同じように内容で検索できるようになる。
1870年の米国大統領の写真を探したいなら、もう狙いをつけて何十ページもの新聞を読みあさり写真の説明文の内容を何度も確かめる必要はなく、Newspaper Navigatorで「president 1870」と検索すれば済む。または、第二次世界大戦時代の風刺漫画を見たいなら、日付の範囲を指定するだけで、すべてのイラストが入手できる(彼らはすでに写真を年別のパッケージにまとめていて、その他のコレクションもそうする予定だ)。
下にいくつかの新聞紙面の例を示す。機械学習システムが切り出した枠が重ねられている(注意:帽子の広告が山ほどあり、差別的な内容も含まれる)。
続きはソースで
https://jp.techcrunch.com/2020/05/08/2020-05-07-millions-of-historic-newspaper-images-get-the-machine-learning-treatment-at-the-library-of-congress/?guccounter=1