CoordConv: 座標に関わるCNNの弱点を克服する拡張

機械学習論文

今回は『An intriguing failing of convolutional neural networks and the CoordConv solution』という論文を紹介します。この論文ではCNNが苦手とする画像上の座標情報に関するタスク性能を向上するCoordConvという構造を提案しています。 arxiv.org PyTo…

2023-10-27

ByteTrack: シンプルな発想で性能と実効速度を向上したtrackingモデル

機械学習論文

前回はreal-time性のあるMulti-object tracking (MOT)モデルとしてFairMOTを紹介しました。 aburaku.hatenablog.com 今回はシンプルな方法でさらに性能、実行速度共に大きく向上させたByteTrackを提案した論文、『ByteTrack: Multi-Object Tracking by Assoc…

#機械学習

2023-10-25

物体検出と一体化したreal-timeなトラッキングモデルFairMOT

機械学習論文

動画内で検出した物体が以降のフレームのどの物体に対応するかを解く問題はMulti-object tracking(MOT)と呼ばれ、近年ではこれにディープラーニングで取り組む研究も増えています。今回はその中でもreal-time性の高いFairMOTを提案した論文「FairMOT: On the…

#FairMOT #トラッキング

2023-10-22

YOLOはもう古い？アンカーボックスフリーの物体検出モデルCenterNet

論文機械学習

ディープラーニングによる物体検出モデルと聞くとYOLOを真っ先に思い浮かべる人が多いのではないでしょうか。 YOLOはアンカーボックスと呼ばれる、bounding boxの候補を予め定義したものを利用する手法です。ただ数年前よりこのアンカーボックスを活用しない…

2023-05-22

MetaのコンピュータビジョンモデルDINOv2はどのような自己教師あり学習を行っているか？(DINOv2: Learning Robust Visual Features without Supervision)

論文機械学習

DINOv2とは DINOv2は2023年4月にMetaより公開された、自己教師あり学習によるコンピュータビジョン(CV)モデルです。その名の通りDINOという既存のモデルの改良版です。自己教師あり学習は入力データ(画像)以外のラベルなしに学習をする手法ですが、下記のtw…

#ディープラーニング #コンピュータビジョン

2023-04-08

論文読み Segment Anything

論文機械学習

記事の概要 2023/4/5に発表されたMetaのセグメンテーションモデル: Segment Anything Model (SAM)の論文を紹介します。arxiv.org セグメンテーションは以下のように画像のピクセルを物体毎に区分けするようなタスクです。(注: 同じ種類のオブジェクト毎に区…

#ディープラーニング #セグメンテーション

2023-03-30

論文読み A ConvNet for the 2020s

論文機械学習

記事の概要 Vision Transformerへ注目が集まる中、ConvNetの可能性を再考した論文"A ConvNet for the 2020s"を紹介します。arxiv.org 新規のテクニックを発見したのではなく、既存のテクニックを適切に組み合わせてVision Transformerに匹敵する性能を得たと…

#ディープラーニング #コンピュータビジョン

2023-03-19

論文読み Image as a Foreign Language: BEIT Pretraining for All Vision and Vision-Language Tasks

論文機械学習

記事の概要 Vision, Vision-Languageに対する基盤モデルであるBEIT-3に関する論文を紹介します。arxiv.org 論文の概要論文の1ページ目から目を引く結果が掲載されています。Vision, Vision-Languageのあらゆるタスクで既存の基盤モデルの性能を上回っていま…

#ディープラーニング

2023-03-19

論文読み MaskViT: Masked Visual Pre-Training for Video Prediction

機械学習論文

この記事の概要動画を入力して将来のフレームを予測するVideo Predictionの論文「MaskViT: Masked Visual Pre-Training for Video Prediction」を紹介します。arxiv.org モデルによる予測の例は以下のリンクから見ることができます。maskedvit.github.io な…

#ディープラーニング

2023-03-13

論文読み MetaFormer Is Actually What You Need for Vision

論文機械学習

記事の概要前回の記事でVision Transformerのself-attentionをMLPに置き換えても性能は変わらないという論文を紹介しました。aburaku.hatenablog.com 今回紹介する論文はさらに一歩進み、特徴量をmixするパートは何でもよくて、それ以外の構造自体が重要で…

#Transformer

2023-03-12

論文読み MLP-Mixer: An all-MLP Architecture for Vision

論文機械学習

記事の概要 Computer Visionの分野ではCNNとVision Transformer以外にMLPをベースにしたモデルが台頭しているということを聞き、一体どういうことなのか調べました。あまりいい感じの解説記事が見つからなかったので、元論文MLP-Mixer: An all-MLP Architec…

#Deep learning

2022-06-14

Can Spatiotemporal 3D CNNs Retrace the History of 2D CNNs and ImageNet?を読んだまとめ

論文機械学習

0. この投稿の概要 1. 論文の内容目的実験実験1 実験2 実験3 2. 感想 0. この投稿の概要動画認識の機械学習モデル、3DCNNに関する論文"Can Spatiotemporal 3D CNNs Retrace the History of 2D CNNs and ImageNet?"を読んだので、その内容をまとめます。…

#ディープラーニング #論文読み

Tsubatoの発信記録

主に機械学習やデータサイエンス関連で学んだことを書いています。

論文

CoordConv: 座標に関わるCNNの弱点を克服する拡張

ByteTrack: シンプルな発想で性能と実効速度を向上したtrackingモデル

物体検出と一体化したreal-timeなトラッキングモデルFairMOT

YOLOはもう古い？アンカーボックスフリーの物体検出モデルCenterNet

MetaのコンピュータビジョンモデルDINOv2はどのような自己教師あり学習を行っているか？(DINOv2: Learning Robust Visual Features without Supervision)

論文読み Segment Anything

論文読み A ConvNet for the 2020s

論文読み Image as a Foreign Language: BEIT Pretraining for All Vision and Vision-Language Tasks

論文読み MaskViT: Masked Visual Pre-Training for Video Prediction

論文読み MetaFormer Is Actually What You Need for Vision

論文読み MLP-Mixer: An all-MLP Architecture for Vision

Can Spatiotemporal 3D CNNs Retrace the History of 2D CNNs and ImageNet?を読んだまとめ