◎正当な理由による書き込みの削除について:      生島英之とみられる方へ:

【AI】米国議会図書館が機械学習で300年ぶんの新聞の画像を抽出し検索可能に [しじみ★]->画像>1枚


動画、画像抽出 || この掲示板へ 類似スレ 掲示板一覧 人気スレ 動画人気順

このスレへの固定リンク: http://5chb.net/r/scienceplus/1589128250/
ヒント:5chスレのurlに http://xxxx.5chb.net/xxxx のようにbを入れるだけでここでスレ保存、閲覧できます。

1しじみ ◆fbtBqopam767 しじみ ★2020/05/11(月) 01:30:50.05ID:CAP_USER
昔の事件や人々に関する記録に関心のある歴史家たちは、かつては古い新聞の目録カードをかき分けていたが、次にマイクロフィルムをスキャンするようになり、やがてデジタルリストを検索するようになった。だが現代の技術は、個々の単語や写真に至るまで索引化を可能にした。米国議会図書館では、最新鋭の機械学習を使って1何世紀も前からの新聞記事の写真やイラストをデジタル化し分類する取り組みを進めている。

同図書館の「招聘イノベーター」の座を獲得したワシントン大学研究員であるBen Lee(ベン・リー)氏が主導するプロジェクトNewspaper Navigator(ニューズペーパー・ナビゲーター)では、アメリカの歴史に残る1600万ページぶんを超える新聞の画像を収集しデータを抽出している。

リー氏とその仲間は、昔の新聞や印刷物のデジタル化で先行しているChronicling America(クロニクリング・アメリカ)の仕事に刺激を受けた。Chronicling Americaは新聞のあらゆる内容を光学文字認識(OCR)でスキャンしているが、これはクラウドソース・プロジェクトでもあるため、さらなる分析のための画像の特定や切り出しは人の手が必要だ。ボランティアの作業員は、第一次世界大戦に関係する画像を枠で囲んで説明文を書き写し、画像を分類している。

この限定的な取り組みを見て、リー氏のチームは考えた。「印刷物の画像の特性を生かすものとして、私はそれが大好きでした。そのプロジェクトから生まれた内容の視覚的多様性を見て、純粋に素晴らしいと感じ、米国中の新聞記事を対象にこのような内容を記録できたらどうだろうかと考えたのです」とリー氏はTechCrunchに語った。

彼はまた、ボランティアが作り出したものが、実は機械学習システムのトレーニング用データとして最適であることに気がついた。「これを使ってオブジェクト検出モデルを構築し、あらゆる新聞紙面を読み込ませれば、宝の箱を開けることはできないかと私は自問しました」。

うれしいことに、答えはイエスだった。最初の人力による画像と説明文の切り出し作業を利用し,彼らは、それを自力で行えるAIエージェントを構築した。普通に微調整や最適化のあと、彼らはChronicling Americaがスキャンした新聞記事の完全なデータベースの中にそれを解き放った。

【AI】米国議会図書館が機械学習で300年ぶんの新聞の画像を抽出し検索可能に  [しじみ★]->画像>1枚

「19日間ノンストップで稼働しました。私が経験した中で最大のジョブです」とリー氏。しかし、結果は驚くべきものだった。3世紀(1789年から1963年)にわたる無数の画像が、それらに本来付属していた説明文から抽出されたメタデータとともに分類されたのだ。この処理が解説されている研究論文は、ここで読める。

説明文が正しいと仮定すると、これらの画像(つい最近までアーカイブを日付ごとに追いかけ、文章をひとつひとつ読んで、片っ端から調べなければ見ることができなかったもの)は、他の言語資料と同じように内容で検索できるようになる。

1870年の米国大統領の写真を探したいなら、もう狙いをつけて何十ページもの新聞を読みあさり写真の説明文の内容を何度も確かめる必要はなく、Newspaper Navigatorで「president 1870」と検索すれば済む。または、第二次世界大戦時代の風刺漫画を見たいなら、日付の範囲を指定するだけで、すべてのイラストが入手できる(彼らはすでに写真を年別のパッケージにまとめていて、その他のコレクションもそうする予定だ)。

下にいくつかの新聞紙面の例を示す。機械学習システムが切り出した枠が重ねられている(注意:帽子の広告が山ほどあり、差別的な内容も含まれる)。

続きはソースで

https://jp.techcrunch.com/2020/05/08/2020-05-07-millions-of-historic-newspaper-images-get-the-machine-learning-treatment-at-the-library-of-congress/?guccounter=1

2名無しのひみつ2020/05/11(月) 01:37:07.88ID:eTHZt12g
100年前の英文原著を読んでてもかなり単語や文法が今と違ってて引っかかるんだけど、
300年前の古典英語って現代人の英語と同じ意味なのか?

そうでないならどうやって機械学習は検索するのだろう??

3名無しのひみつ2020/05/11(月) 01:43:18.74ID:9J9P8lkV
AIに画像の文字でも読み取らせたか?
英語は簡単だが日本語は日本人でも訳さないと意味がいかようにもとれる・・

4名無しのひみつ2020/05/11(月) 01:46:27.88ID:17qFOMaf
>>2-3
文字読み取るだけなのになぜ意味の話に脱線するのか

5名無しのひみつ2020/05/11(月) 01:56:10.16ID:Po//UKzE
映画とかによくある頑張って図書館で新聞調べる描写
これからの世代はポカーンになるな

6名無しのひみつ2020/05/11(月) 02:15:50.03ID:JYS/GJbh
>>5
おまえら老害が現代のITにポカーンとしてる方がずっと邪魔だから。

7名無しのひみつ2020/05/11(月) 02:35:29.86ID:RgrYadm7
昨今の偏向報道を見ると新聞から一体当時の何が知れるのかと思う
新聞の中では、特定の野党が国民から支持され、韓流ブームがあり、シールズは普通の大学生で、
トランプは極右で、納豆は健康によかった
現実は違う

8名無しのひみつ2020/05/11(月) 03:17:37.52ID:450H81ZW
利用法はこれから
大統領の写真を探すだけだったらさびしい

9名無しのひみつ2020/05/11(月) 03:22:10.49ID:36RsBdcD
人間みたいに余計なこと考えたり
やらなくてもよいことやったりしないからね

公務員は全部AIと取り替えた方がいいんじゃない

10名無しのひみつ2020/05/11(月) 07:32:01.44ID:2an7/ITg
これ、日本でもやってくれんかな

>>9
AIは無駄に税金喰らわないから良いよね

11名無しのひみつ2020/05/11(月) 08:17:25.09ID:vFlCJEFO
英語は単語ごとに切れているから形態素解析がやり易い
(今では日本語みたいなくっ付いている言語でも十分可能になってるけど)

AIのためのサンプルデータを作る作業はテレワークにぴったりなんだよな
ただしPCにらめっこの単純作業で向いてない人は色々体調を崩す

12名無しのひみつ2020/05/11(月) 08:34:43.37ID:gkSyCQ14
人間が「この画像の説明文はこれ」と作成したデータを使って
画像とキャプションの位置関係のパターンを学習したって感じかな。

なかなか便利なモノを開発したな、誰が作ったんだ? …とかなんとか。

13名無しのひみつ2020/05/11(月) 10:15:26.31ID:MEA4S5Tj
>>2
人間と違い意味を理解して判断してる訳じゃない。
何らかの閾値で動いてるだけなんでAIは止まらず動くよ。
だから立ち上がる時はデタラメなデータを吐き出すからデータを増やしたり閾値を変更するよな。
結果的に人間が確認して問題が無ければそのまま継続させるだけ

14名無しのひみつ2020/05/11(月) 10:16:59.04ID:MEA4S5Tj
>>10
AIは食わなくても…技術者は金食うよ。

15名無しのひみつ2020/05/11(月) 11:15:16.47ID:2Ur98pTl
>>14
で、それが無駄飯ぐらいの公務員より多くなるという根拠は?
意味のない話だ。お前の言ってることはトラックができたときに、
馬車や大八車の人夫より、運転手が金を食うからやめよ、と言ってるアホと一緒
本当にその方が効率がよく、金がかからないと思ってるのか?

16名無しのひみつ2020/05/11(月) 11:35:43.33ID:3KO8rY7u
アメリカのAI技術者は年収2000万円オーバーも普通

日本だと正社員でAIをカスタマイズして使った業務こなして年収300万円以下が相当いる
派遣だと200万円未満すら!

17名無しのひみつ2020/05/11(月) 11:55:54.75ID:w+EGwkeq
日本は人件費について収益を脅かす不要なコストみたいな風潮があるけど
アメリカだと収益を脅かす奴は解雇するだけなんで

18名無しのひみつ2020/05/11(月) 12:11:39.03ID:ZgmcVncU
>>16
やる必要がないとは思ってるが今のままだと本を管理してる数名たまよな。
このシステムを構築するにはデータスキャンして文字をAIが読み取れる段取りが必要。
コレを何年かけるかによって費用が変わる。
並行して日本語対応したAIシステムの構築が必要だわな。
短期間で富士通とかの大手に頼むとどれくらい見積もりくるかな。

19名無しのひみつ2020/05/11(月) 12:13:04.88ID:aMnjtF0s
>>16 アメリカのCTスキャン検査は1000万円オーバー
一方日本はだれでも8000円

20名無しのひみつ2020/05/11(月) 12:22:59.17ID:2Ur98pTl
>>16
アメリカの話と日本の話しを都合よく使い分ける詭弁ですかw
ここは日本、アメリカは関係ないねw日本はIT奴隷国家じゃなかったか
それにさあ、その何倍も人間を使うなら意味はない。
もともとAIってのはそういうもんだろうが。同じ人数だけ使ってるわけもないのにそれではAIやってる意味はないw
馬鹿かと

21名無しのひみつ2020/05/12(火) 15:38:11.20ID:yhe/aiTx
>>16
すまんが開発者とユーザー一緒にしないで欲しい。
が、それでもほんとなら300万は安すぎだから、運用技術あるなら転職は容易だとおもうよ。


lud20200512205452
このスレへの固定リンク: http://5chb.net/r/scienceplus/1589128250/
ヒント:5chスレのurlに http://xxxx.5chb.net/xxxx のようにbを入れるだけでここでスレ保存、閲覧できます。

TOPへ TOPへ  

このエントリをはてなブックマークに追加現在登録者数177 ブックマークへ


全掲示板一覧 この掲示板へ 人気スレ | >50 >100 >200 >300 >500 >1000枚 新着画像

 ↓「【AI】米国議会図書館が機械学習で300年ぶんの新聞の画像を抽出し検索可能に [しじみ★]->画像>1枚 」を見た人も見ています:
複数写真から自由視点画像を生成 Googleなど「NeRF」開発 3D処理を機械学習で行い、実用に足る視点移動が可能。 [ひよこ★]
【原発】 原子力規制委員会、公文書リスト作成を3年間放置 検索不可能に (ソース:朝日新聞)
【マスコミ】朝日新聞、日本語版の慰安婦記事も検索回避 公開当時は検索可能な設定だったが、後からメタタグが埋め込まれていた★2
【IT】機械学習を用いると匿名のソースコードから個人を識別可能であることが判明
【解説/ハードウェア】ハードディスクに障害が発生する可能性を機械学習で予測する研究 [すらいむ★]
【ノーベル賞】物理学賞、米国とカナダの2氏に…人工知能の「機械学習」に関する発見と発明を評価 [すらいむ★]
【IT】「TensorFlow.js」公開、Webブラウザ上で機械学習の開発、学習、実行が可能に。WebGL経由でGPUも活用
【機械学習】GPUメモリが小さくてもパラメーター数が大きい言語モデルをトレーニング可能になる手法が登場、一体どんな手法なのか? [oops★]
【国立情報学研究所】東大図書館など1300施設が使う蔵書検索システムが36年ぶりに刷新 電子資料に対応 [少考さん★]
図書館の検索端末で 「まんこ」 の検索結果出しっ放しで逃げてきた
【ライトノベル】リアル図書館戦争か?中学校の蔵書に市議会が口出しする事態に関係各者から懸念の声
【悲報】Google画像検索でオリジナルサイズ表示が不可能に 史上最悪の改悪だろこれ…
図書館と学習室以外に無料で読書やタブレットで書きものできるステキ空間ある?
【朗報】ドトールコーヒー 千葉市中央図書館・生涯学習センター店、3日オープン [無断転載禁止]
【宇宙開発】 米国、再び月へ 「国家宇宙評議会」を24年ぶり開催[10/06]
【AI】日本新聞協会、著作権法の早急な改正を要望…AI無断学習容認で偽情報拡散の危険性も [すらいむ★]
【AI】Google製AI検索機能「Deep Research」が日本語でも利用可能に [すらいむ★]
【ゲノム編集】遺伝子編集技術CRISPRのエラーが機械学習で予測できるように
【AI】スタークラフトのAI対決、優勝は「機械学習不使用」のサムスン[11/19]
【AI】学習して進化するAIに“忘れさせる”ことは可能なのか? 研究者たちの取り組みと課題 [すらいむ★]
【IT】NVIDIA×滋賀大学、1000ページ超の機械学習教育用資料の日本語版を公開 [すらいむ★]
【ハードウェア】機械学習に最適とされる「NVIDIA H100」の代替になり得る「NVIDIA L40S」の性能とは? [すらいむ★]
機械学習で従来の3500倍以上高速かつコストが10万分の1に抑えられる気象予測モデルをGoogle Researchが公開 [すらいむ★]
機械学習教えてください
ベイズ推定(機械学習含む)
AI、機械学習の教材って何使った?
機械学習を活用して個人でできるビジネスなんかある?
機械学習をかじっとるけど今回のpixiv問題に質問ある?
【統計分析】機械学習・データマイニング32
【依存症】ゲーム時間制限「9割超は依存と無関係」香川県条例案批判 高松で学習会 - 毎日新聞[01/27]
【話題】欧州の「AI企業」の4割、機械学習を使用せず[03/06]
【ネット】Amazonが「検索結果を不正操作していた」との報道、他社製品をコピーした可能性も [すらいむ★]
バイドゥ、量子機械学習モデル開発ツールキットをGitHubで公開
【技術】AIが衰退期に 機械学習エンジニアが職を失う [雷★]
【情報】誤情報の真偽を確かめるために検索するとかえって誤情報を信じてしまう可能性があるとの研究結果 [すらいむ★]
【機械工学】〈動画〉「学習をほとんど必要としない」義手が開発される[05/30]
【脳科学】脳活動の全体像把握、機械学習は強力なツールになり得る [すらいむ★]
【IT】さくらインターネット、機械学習やPythonの講座を無償公開 [田杉山脈★]
【情報科学モメン】機械学習を駆使して、ネットの海からうみもぐを探し出す方法は?
【機械工学】〈動画〉米国防総省、三角形に変形する車輪を発表[06/26]
【敵対的機械学習】カラープリントした紙で「AIの監視」から逃れる方法[04/29]
量子機械学習の一歩踏み出す、伊チームがパーセプトロン実装に成功[12/12]
【心理学】機械学習を使った調査で「うつ」病の人がよく使いがちな言葉が判明[02/09]
【物理】東大、ナノダイヤモンドと機械学習による高精度磁場イメージングを実現 [すらいむ★]
【材料】6次元の揺らぎがもたらす準結晶の奇妙な物性 機械学習分子運動力学シミュレーションで解明 東大など [すらいむ★]
【嫌儲IT部】『機械学習エンジニア』って実際どうなの?給料高い、将来性ある、最先端技術を学べる、起業で一攫千金狙える 最高じゃね?
【話題】「遺伝子系図」で米国人の大半を特定可能に、プライバシーの問題も[10/12]
【話題】謎のオーパーツ「アンティキティラ島の機械」が「太陰暦カレンダー」だった可能性が浮上 [すらいむ★]
【航空】世界最大の航空機「ストラトローンチ」を初公開 ロケットを空中輸送し発射も可能 米国
【本】「ウマ娘」と「馬」も区別できず…同じと思われがちな《機械学習と人工知能》が致命的に異なる「過学習」のメカニズム [少考さん★]
【宇宙開発】ロシアが機密衛星を打ち上げ。米国の軍事衛星を追跡する偵察衛星の可能性 [すらいむ★]
【ナゾロジー】子どものいびきは「脳の縮小」が原因だった。不注意や学習障害のリスクを高める可能性も [すらいむ★]
【新型コロナ】野生のシカの4割に新型コロナの抗体、集団感染の可能性、米国 [すらいむ★]
【軍事技術】極超音速兵器、開発競争が過熱 中ロ先行、米国に焦燥感―戦いの在り方変える可能性 [すらいむ★]
【新型コロナ】米国で流行の「L452R変異株」、日本人の6割が免疫発揮できない可能性 [すらいむ★]
mateの画像検索出来ないのいつまで続くんだよ
【疾患】死体から抽出した成長ホルモンを投与する治療のせいでアルツハイマー病が「伝染」してしまった可能性 [すらいむ★]
(ヽ´ん`)「水泳部、日焼けで検索すると競泳水着をお尻の割れ目が見えるくらい下ろした若い子の画像が出るぞ!ホントにホント!」
【神経科学/認知科学】白黒の画像に色の見えを作り出す技術を開発 低次視覚皮質における方位と色の連合学習
【ナゾロジー】AppleがiPhone内の画像から勝手に児童ポルノを通報すると発表!今年中に米国で開始 [すらいむ★]
【東京】国立国会図書館が再開 3カ月ぶり、1日200人限定 [爆笑ゴリラ★]
【オーストラリア】国内で「中国警戒論」が台頭 国会図書館が全議員に警告の報告書を配布 [09/09]
【AI】国立国会図書館、来春までに247万点・2億2300万枚超の資料を全文テキストデータ化へ LINE [すらいむ★]
【機械工学】〈動画あり〉驚異的、脳全体の3D画像化に成功、2100万回撮影 ニューロンのつながりをマッピング、ショウジョウバエ
画像検索できなくね?
14:00:11 up 3 days, 19:33, 1 user, load average: 12.85, 12.46, 12.64

in 0.14389109611511 sec @0.14389109611511@0b7 on 040303