2023-03-01から1ヶ月間の記事一覧
記事の概要 Vision Transformerへ注目が集まる中、ConvNetの可能性を再考した論文"A ConvNet for the 2020s"を紹介します。arxiv.org 新規のテクニックを発見したのではなく、既存のテクニックを適切に組み合わせてVision Transformerに匹敵する性能を得たと…
記事の概要 Vision, Vision-Languageに対する基盤モデルであるBEIT-3に関する論文を紹介します。arxiv.org 論文の概要 論文の1ページ目から目を引く結果が掲載されています。Vision, Vision-Languageのあらゆるタスクで既存の基盤モデルの性能を上回っていま…
記事の概要 機械学習モデルのハイパーパラメータサーチによく用いられるOptunaに関する本を読みましたので、学んだことをまとめます。 Optunaによるブラックボックス最適化作者:佐野正太郎,秋葉拓哉,今村秀明,太田健,水野尚人,柳瀬利彦オーム社Amazon 本から…
この記事の概要 動画を入力して将来のフレームを予測するVideo Predictionの論文「MaskViT: Masked Visual Pre-Training for Video Prediction」を紹介します。arxiv.org モデルによる予測の例は以下のリンクから見ることができます。maskedvit.github.io な…
記事の概要 前回の記事でVision Transformerのself-attentionをMLPに置き換えても性能は変わらないという論文を紹介しました。aburaku.hatenablog.com 今回紹介する論文はさらに一歩進み、特徴量をmixするパートは何でもよくて、それ以外の構造自体が重要で…
記事の概要 Computer Visionの分野ではCNNとVision Transformer以外にMLPをベースにしたモデルが台頭しているということを聞き、一体どういうことなのか調べました。 あまりいい感じの解説記事が見つからなかったので、元論文MLP-Mixer: An all-MLP Architec…
やりたいこと ニューラルネットワークの表現形式の一つであるonnxファイルからパラメータを取り出したい。 PyTorchなどのフレームワークで一旦読み込んでからパラメータを取り出すこともできるかと思いますが、onnxだけで完結する方法を共有します。 実装 サ…