【ＡＩ】米国議会図書館が機械学習で300年ぶんの新聞の画像を抽出し検索可能に [しじみ★]->画像>1枚

このスレへの固定リンク： http://5chb.net/r/scienceplus/1589128250/
ヒント：5chスレのurlに http://xxxx.5chb.net/xxxx のようにbを入れるだけでここでスレ保存、閲覧できます。

1しじみ ◆fbtBqopam767 しじみ ★2020/05/11(月) 01:30:50.05ID:CAP_USER

昔の事件や人々に関する記録に関心のある歴史家たちは、かつては古い新聞の目録カードをかき分けていたが、次にマイクロフィルムをスキャンするようになり、やがてデジタルリストを検索するようになった。だが現代の技術は、個々の単語や写真に至るまで索引化を可能にした。米国議会図書館では、最新鋭の機械学習を使って1何世紀も前からの新聞記事の写真やイラストをデジタル化し分類する取り組みを進めている。

同図書館の「招聘イノベーター」の座を獲得したワシントン大学研究員であるBen Lee（ベン・リー）氏が主導するプロジェクトNewspaper Navigator（ニューズペーパー・ナビゲーター）では、アメリカの歴史に残る1600万ページぶんを超える新聞の画像を収集しデータを抽出している。

リー氏とその仲間は、昔の新聞や印刷物のデジタル化で先行しているChronicling America（クロニクリング・アメリカ）の仕事に刺激を受けた。Chronicling Americaは新聞のあらゆる内容を光学文字認識（OCR）でスキャンしているが、これはクラウドソース・プロジェクトでもあるため、さらなる分析のための画像の特定や切り出しは人の手が必要だ。ボランティアの作業員は、第一次世界大戦に関係する画像を枠で囲んで説明文を書き写し、画像を分類している。

この限定的な取り組みを見て、リー氏のチームは考えた。「印刷物の画像の特性を生かすものとして、私はそれが大好きでした。そのプロジェクトから生まれた内容の視覚的多様性を見て、純粋に素晴らしいと感じ、米国中の新聞記事を対象にこのような内容を記録できたらどうだろうかと考えたのです」とリー氏はTechCrunchに語った。

彼はまた、ボランティアが作り出したものが、実は機械学習システムのトレーニング用データとして最適であることに気がついた。「これを使ってオブジェクト検出モデルを構築し、あらゆる新聞紙面を読み込ませれば、宝の箱を開けることはできないかと私は自問しました」。

うれしいことに、答えはイエスだった。最初の人力による画像と説明文の切り出し作業を利用し，彼らは、それを自力で行えるAIエージェントを構築した。普通に微調整や最適化のあと、彼らはChronicling Americaがスキャンした新聞記事の完全なデータベースの中にそれを解き放った。

【ＡＩ】米国議会図書館が機械学習で300年ぶんの新聞の画像を抽出し検索可能に [しじみ★]->画像>1枚

【ＡＩ】米国議会図書館が機械学習で300年ぶんの新聞の画像を抽出し検索可能に [しじみ★]->画像>1枚

「19日間ノンストップで稼働しました。私が経験した中で最大のジョブです」とリー氏。しかし、結果は驚くべきものだった。3世紀（1789年から1963年）にわたる無数の画像が、それらに本来付属していた説明文から抽出されたメタデータとともに分類されたのだ。この処理が解説されている研究論文は、ここで読める。

説明文が正しいと仮定すると、これらの画像（つい最近までアーカイブを日付ごとに追いかけ、文章をひとつひとつ読んで、片っ端から調べなければ見ることができなかったもの）は、他の言語資料と同じように内容で検索できるようになる。

1870年の米国大統領の写真を探したいなら、もう狙いをつけて何十ページもの新聞を読みあさり写真の説明文の内容を何度も確かめる必要はなく、Newspaper Navigatorで「president 1870」と検索すれば済む。または、第二次世界大戦時代の風刺漫画を見たいなら、日付の範囲を指定するだけで、すべてのイラストが入手できる（彼らはすでに写真を年別のパッケージにまとめていて、その他のコレクションもそうする予定だ）。

下にいくつかの新聞紙面の例を示す。機械学習システムが切り出した枠が重ねられている（注意：帽子の広告が山ほどあり、差別的な内容も含まれる）。

続きはソースで

https://jp.techcrunch.com/2020/05/08/2020-05-07-millions-of-historic-newspaper-images-get-the-machine-learning-treatment-at-the-library-of-congress/?guccounter=1

2名無しのひみつ2020/05/11(月) 01:37:07.88ID:eTHZt12g

100年前の英文原著を読んでてもかなり単語や文法が今と違ってて引っかかるんだけど、
300年前の古典英語って現代人の英語と同じ意味なのか？

そうでないならどうやって機械学習は検索するのだろう？？

3名無しのひみつ2020/05/11(月) 01:43:18.74ID:9J9P8lkV

AIに画像の文字でも読み取らせたか？
英語は簡単だが日本語は日本人でも訳さないと意味がいかようにもとれる・・

4名無しのひみつ2020/05/11(月) 01:46:27.88ID:17qFOMaf

>>2-3
文字読み取るだけなのになぜ意味の話に脱線するのか

5名無しのひみつ2020/05/11(月) 01:56:10.16ID:Po//UKzE

映画とかによくある頑張って図書館で新聞調べる描写
これからの世代はポカーンになるな

6名無しのひみつ2020/05/11(月) 02:15:50.03ID:JYS/GJbh

>>5
おまえら老害が現代のITにポカーンとしてる方がずっと邪魔だから。

7名無しのひみつ2020/05/11(月) 02:35:29.86ID:RgrYadm7

昨今の偏向報道を見ると新聞から一体当時の何が知れるのかと思う
新聞の中では、特定の野党が国民から支持され、韓流ブームがあり、シールズは普通の大学生で、
トランプは極右で、納豆は健康によかった
現実は違う

8名無しのひみつ2020/05/11(月) 03:17:37.52ID:450H81ZW

利用法はこれから
大統領の写真を探すだけだったらさびしい

9名無しのひみつ2020/05/11(月) 03:22:10.49ID:36RsBdcD

人間みたいに余計なこと考えたり
やらなくてもよいことやったりしないからね

公務員は全部AIと取り替えた方がいいんじゃない

10名無しのひみつ2020/05/11(月) 07:32:01.44ID:2an7/ITg

これ、日本でもやってくれんかな

>>9
AIは無駄に税金喰らわないから良いよね

11名無しのひみつ2020/05/11(月) 08:17:25.09ID:vFlCJEFO

英語は単語ごとに切れているから形態素解析がやり易い
(今では日本語みたいなくっ付いている言語でも十分可能になってるけど)

AIのためのサンプルデータを作る作業はテレワークにぴったりなんだよな
ただしPCにらめっこの単純作業で向いてない人は色々体調を崩す

12名無しのひみつ2020/05/11(月) 08:34:43.37ID:gkSyCQ14

人間が「この画像の説明文はこれ」と作成したデータを使って
画像とキャプションの位置関係のパターンを学習したって感じかな。

なかなか便利なモノを開発したな、誰が作ったんだ? …とかなんとか。

13名無しのひみつ2020/05/11(月) 10:15:26.31ID:MEA4S5Tj

>>2
人間と違い意味を理解して判断してる訳じゃない。
何らかの閾値で動いてるだけなんでAIは止まらず動くよ。
だから立ち上がる時はデタラメなデータを吐き出すからデータを増やしたり閾値を変更するよな。
結果的に人間が確認して問題が無ければそのまま継続させるだけ

14名無しのひみつ2020/05/11(月) 10:16:59.04ID:MEA4S5Tj

>>10
AIは食わなくても…技術者は金食うよ。

15名無しのひみつ2020/05/11(月) 11:15:16.47ID:2Ur98pTl

>>14
で、それが無駄飯ぐらいの公務員より多くなるという根拠は？
意味のない話だ。お前の言ってることはトラックができたときに、
馬車や大八車の人夫より、運転手が金を食うからやめよ、と言ってるアホと一緒
本当にその方が効率がよく、金がかからないと思ってるのか？

16名無しのひみつ2020/05/11(月) 11:35:43.33ID:3KO8rY7u

アメリカのAI技術者は年収2000万円オーバーも普通

日本だと正社員でAIをカスタマイズして使った業務こなして年収300万円以下が相当いる
派遣だと200万円未満すら！

17名無しのひみつ2020/05/11(月) 11:55:54.75ID:w+EGwkeq

日本は人件費について収益を脅かす不要なコストみたいな風潮があるけど
アメリカだと収益を脅かす奴は解雇するだけなんで

18名無しのひみつ2020/05/11(月) 12:11:39.03ID:ZgmcVncU

>>16
やる必要がないとは思ってるが今のままだと本を管理してる数名たまよな。
このシステムを構築するにはデータスキャンして文字をAIが読み取れる段取りが必要。
コレを何年かけるかによって費用が変わる。
並行して日本語対応したAIシステムの構築が必要だわな。
短期間で富士通とかの大手に頼むとどれくらい見積もりくるかな。

19名無しのひみつ2020/05/11(月) 12:13:04.88ID:aMnjtF0s

>>16 アメリカのCTスキャン検査は1000万円オーバー
一方日本はだれでも8000円

20名無しのひみつ2020/05/11(月) 12:22:59.17ID:2Ur98pTl

>>16
アメリカの話と日本の話しを都合よく使い分ける詭弁ですかｗ
ここは日本、アメリカは関係ないねｗ日本はIT奴隷国家じゃなかったか
それにさあ、その何倍も人間を使うなら意味はない。
もともとAIってのはそういうもんだろうが。同じ人数だけ使ってるわけもないのにそれではAIやってる意味はないｗ
馬鹿かと

21名無しのひみつ2020/05/12(火) 15:38:11.20ID:yhe/aiTx

>>16
すまんが開発者とユーザー一緒にしないで欲しい。
が、それでもほんとなら300万は安すぎだから、運用技術あるなら転職は容易だとおもうよ。