Tsubatoの発信記録

主に機械学習やデータサイエンス関連で学んだことを書いています。

論文

CoordConv: 座標に関わるCNNの弱点を克服する拡張

今回は『An intriguing failing of convolutional neural networks and the CoordConv solution』という論文を紹介します。 この論文ではCNNが苦手とする画像上の座標情報に関するタスク性能を向上するCoordConvという構造を提案しています。 arxiv.org PyTo…

ByteTrack: シンプルな発想で性能と実効速度を向上したtrackingモデル

前回はreal-time性のあるMulti-object tracking (MOT)モデルとしてFairMOTを紹介しました。 aburaku.hatenablog.com 今回はシンプルな方法でさらに性能、実行速度共に大きく向上させたByteTrackを提案した論文、『ByteTrack: Multi-Object Tracking by Assoc…

物体検出と一体化したreal-timeなトラッキングモデルFairMOT

動画内で検出した物体が以降のフレームのどの物体に対応するかを解く問題はMulti-object tracking(MOT)と呼ばれ、近年ではこれにディープラーニングで取り組む研究も増えています。今回はその中でもreal-time性の高いFairMOTを提案した論文「FairMOT: On the…

YOLOはもう古い?アンカーボックスフリーの物体検出モデルCenterNet

ディープラーニングによる物体検出モデルと聞くとYOLOを真っ先に思い浮かべる人が多いのではないでしょうか。 YOLOはアンカーボックスと呼ばれる、bounding boxの候補を予め定義したものを利用する手法です。ただ数年前よりこのアンカーボックスを活用しない…

MetaのコンピュータビジョンモデルDINOv2はどのような自己教師あり学習を行っているか?(DINOv2: Learning Robust Visual Features without Supervision)

DINOv2とは DINOv2は2023年4月にMetaより公開された、自己教師あり学習によるコンピュータビジョン(CV)モデルです。その名の通りDINOという既存のモデルの改良版です。 自己教師あり学習は入力データ(画像)以外のラベルなしに学習をする手法ですが、下記のtw…

論文読み Segment Anything

記事の概要 2023/4/5に発表されたMetaのセグメンテーションモデル: Segment Anything Model (SAM)の論文を紹介します。arxiv.org セグメンテーションは以下のように画像のピクセルを物体毎に区分けするようなタスクです。(注: 同じ種類のオブジェクト毎に区…

論文読み A ConvNet for the 2020s

記事の概要 Vision Transformerへ注目が集まる中、ConvNetの可能性を再考した論文"A ConvNet for the 2020s"を紹介します。arxiv.org 新規のテクニックを発見したのではなく、既存のテクニックを適切に組み合わせてVision Transformerに匹敵する性能を得たと…

論文読み Image as a Foreign Language: BEIT Pretraining for All Vision and Vision-Language Tasks

記事の概要 Vision, Vision-Languageに対する基盤モデルであるBEIT-3に関する論文を紹介します。arxiv.org 論文の概要 論文の1ページ目から目を引く結果が掲載されています。Vision, Vision-Languageのあらゆるタスクで既存の基盤モデルの性能を上回っていま…

論文読み MaskViT: Masked Visual Pre-Training for Video Prediction

この記事の概要 動画を入力して将来のフレームを予測するVideo Predictionの論文「MaskViT: Masked Visual Pre-Training for Video Prediction」を紹介します。arxiv.org モデルによる予測の例は以下のリンクから見ることができます。maskedvit.github.io な…

論文読み MetaFormer Is Actually What You Need for Vision

記事の概要 前回の記事でVision Transformerのself-attentionをMLPに置き換えても性能は変わらないという論文を紹介しました。aburaku.hatenablog.com 今回紹介する論文はさらに一歩進み、特徴量をmixするパートは何でもよくて、それ以外の構造自体が重要で…

論文読み MLP-Mixer: An all-MLP Architecture for Vision

記事の概要 Computer Visionの分野ではCNNとVision Transformer以外にMLPをベースにしたモデルが台頭しているということを聞き、一体どういうことなのか調べました。 あまりいい感じの解説記事が見つからなかったので、元論文MLP-Mixer: An all-MLP Architec…

Can Spatiotemporal 3D CNNs Retrace the History of 2D CNNs and ImageNet?を読んだまとめ

0. この投稿の概要 1. 論文の内容 目的 実験 実験1 実験2 実験3 2. 感想 0. この投稿の概要 動画認識の機械学習モデル、3DCNNに関する論文"Can Spatiotemporal 3D CNNs Retrace the History of 2D CNNs and ImageNet?"を読んだので、その内容をまとめます。…