Tsubatoの発信記録

主に機械学習やデータサイエンス関連で学んだことを書いています。

論文読み Image as a Foreign Language: BEIT Pretraining for All Vision and Vision-Language Tasks

論文機械学習

記事の概要

Vision, Vision-Languageに対する基盤モデルであるBEIT-3に関する論文を紹介します。arxiv.org

論文の概要

論文の1ページ目から目を引く結果が掲載されています。Vision, Vision-Languageのあらゆるタスクで既存の基盤モデルの性能を上回っています。
モデルの構造自体は別論文で提案されたMoME transformerというものです。self-attentionが共通になっており、その後のMLPがVision、Language、Vision-Languageそれぞれで独立した構造になっています。

元論文では画像とテキストで異なるタスクで学習していたのに対し、本論文ではtokenの一部をマスクしてマスク前のtokenを復元するという共通タスクで学習しているのが特徴です。
基盤モデルということで大量のパラメータを大量のデータで学習しています。maskの復元という1つのタスクに取り組むことが、スケールアップを容易にしているようです。

感想

GPTもそうですが、巨大なtransformerを大量のデータとmaskの復元問題で学習するというのが今の主流のようです。機械学習自体がそういうものだから仕方ないですが、大量のリソースを持つ大企業による寡占が今後さらに進行しそうですね…