Tsubatoの発信記録

主に機械学習やデータサイエンス関連で学んだことを書いています。

2023-03-01から1ヶ月間の記事一覧

論文読み A ConvNet for the 2020s

記事の概要 Vision Transformerへ注目が集まる中、ConvNetの可能性を再考した論文"A ConvNet for the 2020s"を紹介します。arxiv.org 新規のテクニックを発見したのではなく、既存のテクニックを適切に組み合わせてVision Transformerに匹敵する性能を得たと…

論文読み Image as a Foreign Language: BEIT Pretraining for All Vision and Vision-Language Tasks

記事の概要 Vision, Vision-Languageに対する基盤モデルであるBEIT-3に関する論文を紹介します。arxiv.org 論文の概要 論文の1ページ目から目を引く結果が掲載されています。Vision, Vision-Languageのあらゆるタスクで既存の基盤モデルの性能を上回っていま…

読書記録 Optunaによるブラックボックス最適化

記事の概要 機械学習モデルのハイパーパラメータサーチによく用いられるOptunaに関する本を読みましたので、学んだことをまとめます。 Optunaによるブラックボックス最適化作者:佐野正太郎,秋葉拓哉,今村秀明,太田健,水野尚人,柳瀬利彦オーム社Amazon 本から…

論文読み MaskViT: Masked Visual Pre-Training for Video Prediction

この記事の概要 動画を入力して将来のフレームを予測するVideo Predictionの論文「MaskViT: Masked Visual Pre-Training for Video Prediction」を紹介します。arxiv.org モデルによる予測の例は以下のリンクから見ることができます。maskedvit.github.io な…

論文読み MetaFormer Is Actually What You Need for Vision

記事の概要 前回の記事でVision Transformerのself-attentionをMLPに置き換えても性能は変わらないという論文を紹介しました。aburaku.hatenablog.com 今回紹介する論文はさらに一歩進み、特徴量をmixするパートは何でもよくて、それ以外の構造自体が重要で…

論文読み MLP-Mixer: An all-MLP Architecture for Vision

記事の概要 Computer Visionの分野ではCNNとVision Transformer以外にMLPをベースにしたモデルが台頭しているということを聞き、一体どういうことなのか調べました。 あまりいい感じの解説記事が見つからなかったので、元論文MLP-Mixer: An all-MLP Architec…

onnxファイルからパラメータ(weight, bias)を抽出する

やりたいこと ニューラルネットワークの表現形式の一つであるonnxファイルからパラメータを取り出したい。 PyTorchなどのフレームワークで一旦読み込んでからパラメータを取り出すこともできるかと思いますが、onnxだけで完結する方法を共有します。 実装 サ…