Tsubatoの発信記録

主に機械学習やデータサイエンス関連で学んだことを書いています。

2023-01-01から1年間の記事一覧

『世界一流エンジニアの思考法』を読んで生産性を上げることを考えた

米マイクロソフトでAzure Functionsの開発に携わる牛尾剛氏による『世界一流エンジニアの思考法』を読みました。 本書では著者が世界最高峰のテック企業のエンジニアとして活躍するために、優秀な同僚達から学んだ仕事への取り組み方が書かれています。 世界…

ByteTrack: シンプルな発想で性能と実効速度を向上したtrackingモデル

前回はreal-time性のあるMulti-object tracking (MOT)モデルとしてFairMOTを紹介しました。 aburaku.hatenablog.com 今回はシンプルな方法でさらに性能、実行速度共に大きく向上させたByteTrackを提案した論文、『ByteTrack: Multi-Object Tracking by Assoc…

物体検出と一体化したreal-timeなトラッキングモデルFairMOT

動画内で検出した物体が以降のフレームのどの物体に対応するかを解く問題はMulti-object tracking(MOT)と呼ばれ、近年ではこれにディープラーニングで取り組む研究も増えています。今回はその中でもreal-time性の高いFairMOTを提案した論文「FairMOT: On the…

YOLOはもう古い?アンカーボックスフリーの物体検出モデルCenterNet

ディープラーニングによる物体検出モデルと聞くとYOLOを真っ先に思い浮かべる人が多いのではないでしょうか。 YOLOはアンカーボックスと呼ばれる、bounding boxの候補を予め定義したものを利用する手法です。ただ数年前よりこのアンカーボックスを活用しない…

gitで個人的に追加/変更したファイルを管理外にしたい

gitの管理対象外にしたい場合は.gitignoreを使いますが、個人的に追加/変更したファイルを共有の.gitignoreに追加するのは憚れます。そうした場合に使えるコマンドを調べました。 個人的に追加したファイルを無視したい ユースケース: 自分がよく使うコマン…

MetaのコンピュータビジョンモデルDINOv2はどのような自己教師あり学習を行っているか?(DINOv2: Learning Robust Visual Features without Supervision)

DINOv2とは DINOv2は2023年4月にMetaより公開された、自己教師あり学習によるコンピュータビジョン(CV)モデルです。その名の通りDINOという既存のモデルの改良版です。 自己教師あり学習は入力データ(画像)以外のラベルなしに学習をする手法ですが、下記のtw…

論文読み Segment Anything

記事の概要 2023/4/5に発表されたMetaのセグメンテーションモデル: Segment Anything Model (SAM)の論文を紹介します。arxiv.org セグメンテーションは以下のように画像のピクセルを物体毎に区分けするようなタスクです。(注: 同じ種類のオブジェクト毎に区…

ChatGPTに関する有用な記事のまとめ(2023/4/7)

記事の概要 ChatGPTは今までの流行りの技術とは一線を画している気がする方も多いのではないでしょうか?かくいう自分もその1人で、twitterや論文で最新情報を追っています。ただあまりにも進化が早すぎて全然ついていけていません。 ということで本記事では…

Waymoの行動予測モデル(Waymo at CoRL 2022 | Behavior Models for Autonomous Driving)

記事の概要 2022年のConference on Robot Learningという学会でのWaymoの研究部門の責任者であるDrago Anguelov氏の講演内容をまとめます。 動画中で多くの論文が紹介されていますが、本記事では概要にとどめて詳細な解説は別の記事に譲ります。また、本講演…

論文読み A ConvNet for the 2020s

記事の概要 Vision Transformerへ注目が集まる中、ConvNetの可能性を再考した論文"A ConvNet for the 2020s"を紹介します。arxiv.org 新規のテクニックを発見したのではなく、既存のテクニックを適切に組み合わせてVision Transformerに匹敵する性能を得たと…

論文読み Image as a Foreign Language: BEIT Pretraining for All Vision and Vision-Language Tasks

記事の概要 Vision, Vision-Languageに対する基盤モデルであるBEIT-3に関する論文を紹介します。arxiv.org 論文の概要 論文の1ページ目から目を引く結果が掲載されています。Vision, Vision-Languageのあらゆるタスクで既存の基盤モデルの性能を上回っていま…

読書記録 Optunaによるブラックボックス最適化

記事の概要 機械学習モデルのハイパーパラメータサーチによく用いられるOptunaに関する本を読みましたので、学んだことをまとめます。 Optunaによるブラックボックス最適化作者:佐野正太郎,秋葉拓哉,今村秀明,太田健,水野尚人,柳瀬利彦オーム社Amazon 本から…

論文読み MaskViT: Masked Visual Pre-Training for Video Prediction

この記事の概要 動画を入力して将来のフレームを予測するVideo Predictionの論文「MaskViT: Masked Visual Pre-Training for Video Prediction」を紹介します。arxiv.org モデルによる予測の例は以下のリンクから見ることができます。maskedvit.github.io な…

論文読み MetaFormer Is Actually What You Need for Vision

記事の概要 前回の記事でVision Transformerのself-attentionをMLPに置き換えても性能は変わらないという論文を紹介しました。aburaku.hatenablog.com 今回紹介する論文はさらに一歩進み、特徴量をmixするパートは何でもよくて、それ以外の構造自体が重要で…

論文読み MLP-Mixer: An all-MLP Architecture for Vision

記事の概要 Computer Visionの分野ではCNNとVision Transformer以外にMLPをベースにしたモデルが台頭しているということを聞き、一体どういうことなのか調べました。 あまりいい感じの解説記事が見つからなかったので、元論文MLP-Mixer: An all-MLP Architec…

onnxファイルからパラメータ(weight, bias)を抽出する

やりたいこと ニューラルネットワークの表現形式の一つであるonnxファイルからパラメータを取り出したい。 PyTorchなどのフレームワークで一旦読み込んでからパラメータを取り出すこともできるかと思いますが、onnxだけで完結する方法を共有します。 実装 サ…

「ゼロから始める情報発信」を読んで

個人の情報発信について考えました これまで何度もブログを作っては飽きを繰り返してきましたが、今回はそこそこ続いているので今後も継続したいところ。 ということで個人での発信を20年以上続けられている方の電子書籍を読んで、発信の意義と続けるための…

Andrej KarpathyのGPT解説動画

本記事の概要 TeslaでAI開発のディレクターを務め、現在はChatGPTで有名なOpenAIで働くAndrej KarpathyのGPT解説動画[Let's build GPT: from scratch, in code, spelled out.]を紹介します。 www.youtube.com 動画の概要 ChatGPTにも使用されている言語モデ…

google colabのTPUをPyTorchで使う

問題 google colabのTPUをPytorchで使いたい。 ググって出てくるセットアップをするとエラーが出る。 # !pip install cloud-tpu-client==0.10 https://storage.googleapis.com/tpu-pytorch/wheels/torch_xla-1.9-cp37-cp37m-linux_x86_64.whl ERROR: torch_x…