Tsubatoの発信記録

主に機械学習やデータサイエンス関連で学んだことを書いています。

機械学習

CoordConv: 座標に関わるCNNの弱点を克服する拡張

今回は『An intriguing failing of convolutional neural networks and the CoordConv solution』という論文を紹介します。 この論文ではCNNが苦手とする画像上の座標情報に関するタスク性能を向上するCoordConvという構造を提案しています。 arxiv.org PyTo…

ByteTrack: シンプルな発想で性能と実効速度を向上したtrackingモデル

前回はreal-time性のあるMulti-object tracking (MOT)モデルとしてFairMOTを紹介しました。 aburaku.hatenablog.com 今回はシンプルな方法でさらに性能、実行速度共に大きく向上させたByteTrackを提案した論文、『ByteTrack: Multi-Object Tracking by Assoc…

物体検出と一体化したreal-timeなトラッキングモデルFairMOT

動画内で検出した物体が以降のフレームのどの物体に対応するかを解く問題はMulti-object tracking(MOT)と呼ばれ、近年ではこれにディープラーニングで取り組む研究も増えています。今回はその中でもreal-time性の高いFairMOTを提案した論文「FairMOT: On the…

YOLOはもう古い?アンカーボックスフリーの物体検出モデルCenterNet

ディープラーニングによる物体検出モデルと聞くとYOLOを真っ先に思い浮かべる人が多いのではないでしょうか。 YOLOはアンカーボックスと呼ばれる、bounding boxの候補を予め定義したものを利用する手法です。ただ数年前よりこのアンカーボックスを活用しない…

MetaのコンピュータビジョンモデルDINOv2はどのような自己教師あり学習を行っているか?(DINOv2: Learning Robust Visual Features without Supervision)

DINOv2とは DINOv2は2023年4月にMetaより公開された、自己教師あり学習によるコンピュータビジョン(CV)モデルです。その名の通りDINOという既存のモデルの改良版です。 自己教師あり学習は入力データ(画像)以外のラベルなしに学習をする手法ですが、下記のtw…

論文読み Segment Anything

記事の概要 2023/4/5に発表されたMetaのセグメンテーションモデル: Segment Anything Model (SAM)の論文を紹介します。arxiv.org セグメンテーションは以下のように画像のピクセルを物体毎に区分けするようなタスクです。(注: 同じ種類のオブジェクト毎に区…

Waymoの行動予測モデル(Waymo at CoRL 2022 | Behavior Models for Autonomous Driving)

記事の概要 2022年のConference on Robot Learningという学会でのWaymoの研究部門の責任者であるDrago Anguelov氏の講演内容をまとめます。 動画中で多くの論文が紹介されていますが、本記事では概要にとどめて詳細な解説は別の記事に譲ります。また、本講演…

論文読み A ConvNet for the 2020s

記事の概要 Vision Transformerへ注目が集まる中、ConvNetの可能性を再考した論文"A ConvNet for the 2020s"を紹介します。arxiv.org 新規のテクニックを発見したのではなく、既存のテクニックを適切に組み合わせてVision Transformerに匹敵する性能を得たと…

論文読み Image as a Foreign Language: BEIT Pretraining for All Vision and Vision-Language Tasks

記事の概要 Vision, Vision-Languageに対する基盤モデルであるBEIT-3に関する論文を紹介します。arxiv.org 論文の概要 論文の1ページ目から目を引く結果が掲載されています。Vision, Vision-Languageのあらゆるタスクで既存の基盤モデルの性能を上回っていま…

読書記録 Optunaによるブラックボックス最適化

記事の概要 機械学習モデルのハイパーパラメータサーチによく用いられるOptunaに関する本を読みましたので、学んだことをまとめます。 Optunaによるブラックボックス最適化作者:佐野正太郎,秋葉拓哉,今村秀明,太田健,水野尚人,柳瀬利彦オーム社Amazon 本から…

論文読み MaskViT: Masked Visual Pre-Training for Video Prediction

この記事の概要 動画を入力して将来のフレームを予測するVideo Predictionの論文「MaskViT: Masked Visual Pre-Training for Video Prediction」を紹介します。arxiv.org モデルによる予測の例は以下のリンクから見ることができます。maskedvit.github.io な…

論文読み MetaFormer Is Actually What You Need for Vision

記事の概要 前回の記事でVision Transformerのself-attentionをMLPに置き換えても性能は変わらないという論文を紹介しました。aburaku.hatenablog.com 今回紹介する論文はさらに一歩進み、特徴量をmixするパートは何でもよくて、それ以外の構造自体が重要で…

論文読み MLP-Mixer: An all-MLP Architecture for Vision

記事の概要 Computer Visionの分野ではCNNとVision Transformer以外にMLPをベースにしたモデルが台頭しているということを聞き、一体どういうことなのか調べました。 あまりいい感じの解説記事が見つからなかったので、元論文MLP-Mixer: An all-MLP Architec…

onnxファイルからパラメータ(weight, bias)を抽出する

やりたいこと ニューラルネットワークの表現形式の一つであるonnxファイルからパラメータを取り出したい。 PyTorchなどのフレームワークで一旦読み込んでからパラメータを取り出すこともできるかと思いますが、onnxだけで完結する方法を共有します。 実装 サ…

Andrej KarpathyのGPT解説動画

本記事の概要 TeslaでAI開発のディレクターを務め、現在はChatGPTで有名なOpenAIで働くAndrej KarpathyのGPT解説動画[Let's build GPT: from scratch, in code, spelled out.]を紹介します。 www.youtube.com 動画の概要 ChatGPTにも使用されている言語モデ…

読書記録 GPUを支える技術

0. この投稿の概要 1. 学んだこと ハードウェア ソフトウェア 2. 感想 0. この投稿の概要 「GPUを支える技術」を読んで学んだことをまとめました。2021年に出た増補改訂版の内容です。進化の激しい分野なので、読まれる場合は改訂版を手に取ることをおすすめ…

Can Spatiotemporal 3D CNNs Retrace the History of 2D CNNs and ImageNet?を読んだまとめ

0. この投稿の概要 1. 論文の内容 目的 実験 実験1 実験2 実験3 2. 感想 0. この投稿の概要 動画認識の機械学習モデル、3DCNNに関する論文"Can Spatiotemporal 3D CNNs Retrace the History of 2D CNNs and ImageNet?"を読んだので、その内容をまとめます。…

ゼロから作るDeep Learning3 フレームワーク編を写経した

0. この投稿の概要 1. 学んだこと 自動微分を実現する仕組み ユーザビリティを向上させる仕組み メモリ効率を改善する仕組み 2. 感想 0. この投稿の概要 PyTorchのようなディープラーニングのフレームワークを自作する、ゼロから作るDeep Learning3を写経し…

読書記録 ゼロから作るDeep Learning 4 強化学習編

0. この投稿の概要 1. 各章の概要 1章 バンディット問題 2章 マルコフ決定過程 3章 ベルマン方程式 4章 動的計画法 5章 モンテカルロ法 6章 TD法 7章 ニューラルネットワークとQ学習 8章 DQN 9章 方策勾配法 10章 さらに先へ(興味あるトピックだけ抜粋) 2. …