Tsubatoの発信記録

主に機械学習やデータサイエンス関連で学んだことを書いています。

論文読み MaskViT: Masked Visual Pre-Training for Video Prediction

この記事の概要

  • 動画を入力して将来のフレームを予測するVideo Predictionの論文「MaskViT: Masked Visual Pre-Training for Video Prediction」を紹介します。arxiv.org
  • モデルによる予測の例は以下のリンクから見ることができます。maskedvit.github.io
  • なおこの論文のことはDeepLearning.AIのニュースレター、THE BATCHで知りました。英語ですがこちらでも解説が読めます。www.deeplearning.ai

論文の概要

  • training
    • 学習は2段階で行われ、まずはVQGANで画像を16×16のtokenに圧縮します。これはpixelをtokenにするとあまりに計算量が増えてしまうからです。
    • Masked Visual Modeling(MVM)と呼ばれるタスクで学習しています。これは最初のフレームだけをそのままに、以降のフレームの特徴量を50~100%の割合でランダムにマスクして、続くTransformerでマスクなしの特徴量を予測するというものです。
    • Transformerは全時間でself-attentionを行うと計算量が膨大になるため、2つに分けて計算されています。1つはフレーム毎に計算して空間情報を取得するもの、もう1つはフレームにまたがって計算する時間-空間情報を取得するものです。

  • inference
    • 学習ではマスクされた特徴量を復元するモデルが得られているので、推論時も同様の入力をします。本論文では最初にt=0以外の特徴量を全てmaskしたものを入力し、その予測結果にマスクを付与したものを再度入力して徐々にマスクを減らしていくという処理を繰り返します。
    • 最後にVQGANのデコーダで特徴量から画像を復元します。

  • 予測結果の例
    • 画像が揺らいでいる部分があるなど、不自然さはありますが入力1枚でここまで予測できるのは凄いと思います。


感想

  • 話題のChatGPTでは文章中の単語列から次の単語を予測するというシンプルなタスクでpre-trainingすることで様々なタスクで高い性能を実現しています。Computer Visionにも同じような流れが来るとは思いますが、どのようなタスクでpre-trainingすると良いのか興味深いです。
  • 本論文でも冒頭で触れられていますが、脳の知覚は予測機構によって成り立つという予測符号化モデル(predictive coding)理論があります。脳の仕組みを模倣するというのはディープラーニング研究の1つの指針であるため、video predictionに限らず参考にしている論文がそれなりにあるようです。自分も一時脳科学の本を読み漁りましたが、日本語の本では以下がわかりやすかったと思います。