論文読み A ConvNet for the 2020s

論文機械学習

記事の概要 Vision Transformerへ注目が集まる中、ConvNetの可能性を再考した論文"A ConvNet for the 2020s"を紹介します。arxiv.org 新規のテクニックを発見したのではなく、既存のテクニックを適切に組み合わせてVision Transformerに匹敵する性能を得たと…

#ディープラーニング #コンピュータビジョン

2023-03-19

論文読み Image as a Foreign Language: BEIT Pretraining for All Vision and Vision-Language Tasks

論文機械学習

記事の概要 Vision, Vision-Languageに対する基盤モデルであるBEIT-3に関する論文を紹介します。arxiv.org 論文の概要論文の1ページ目から目を引く結果が掲載されています。Vision, Vision-Languageのあらゆるタスクで既存の基盤モデルの性能を上回っていま…

#ディープラーニング

2023-03-19

読書記録 Optunaによるブラックボックス最適化

読書機械学習 Python

記事の概要機械学習モデルのハイパーパラメータサーチによく用いられるOptunaに関する本を読みましたので、学んだことをまとめます。 Optunaによるブラックボックス最適化作者:佐野正太郎,秋葉拓哉,今村秀明,太田健,水野尚人,柳瀬利彦オーム社Amazon 本から…

2023-03-19

論文読み MaskViT: Masked Visual Pre-Training for Video Prediction

機械学習論文

この記事の概要動画を入力して将来のフレームを予測するVideo Predictionの論文「MaskViT: Masked Visual Pre-Training for Video Prediction」を紹介します。arxiv.org モデルによる予測の例は以下のリンクから見ることができます。maskedvit.github.io な…

#ディープラーニング

2023-03-13

論文読み MetaFormer Is Actually What You Need for Vision

論文機械学習

記事の概要前回の記事でVision Transformerのself-attentionをMLPに置き換えても性能は変わらないという論文を紹介しました。aburaku.hatenablog.com 今回紹介する論文はさらに一歩進み、特徴量をmixするパートは何でもよくて、それ以外の構造自体が重要で…

#Transformer

2023-03-12

論文読み MLP-Mixer: An all-MLP Architecture for Vision

論文機械学習

記事の概要 Computer Visionの分野ではCNNとVision Transformer以外にMLPをベースにしたモデルが台頭しているということを聞き、一体どういうことなのか調べました。あまりいい感じの解説記事が見つからなかったので、元論文MLP-Mixer: An all-MLP Architec…

#Deep learning