読書記録『続ける思考』: 習慣作り本で一番のオススメ

読書

ブックデザイナー井上新八氏による『続ける思考』という本を紹介します。私は昨年習慣作りに関する本を何冊か読みましたが、個人的に本書が一番心に残りましたのでおすすめします。「やりたいこと」も「やるべきこと」も全部できる！続ける思考作者:井上…

2024-01-04

CoordConv: 座標に関わるCNNの弱点を克服する拡張

機械学習論文

今回は『An intriguing failing of convolutional neural networks and the CoordConv solution』という論文を紹介します。この論文ではCNNが苦手とする画像上の座標情報に関するタスク性能を向上するCoordConvという構造を提案しています。 arxiv.org PyTo…

2023-11-11

『世界一流エンジニアの思考法』を読んで生産性を上げることを考えた

読書

米マイクロソフトでAzure Functionsの開発に携わる牛尾剛氏による『世界一流エンジニアの思考法』を読みました。本書では著者が世界最高峰のテック企業のエンジニアとして活躍するために、優秀な同僚達から学んだ仕事への取り組み方が書かれています。世界…

2023-10-27

ByteTrack: シンプルな発想で性能と実効速度を向上したtrackingモデル

機械学習論文

前回はreal-time性のあるMulti-object tracking (MOT)モデルとしてFairMOTを紹介しました。 aburaku.hatenablog.com 今回はシンプルな方法でさらに性能、実行速度共に大きく向上させたByteTrackを提案した論文、『ByteTrack: Multi-Object Tracking by Assoc…

#機械学習

2023-10-25

物体検出と一体化したreal-timeなトラッキングモデルFairMOT

機械学習論文

動画内で検出した物体が以降のフレームのどの物体に対応するかを解く問題はMulti-object tracking(MOT)と呼ばれ、近年ではこれにディープラーニングで取り組む研究も増えています。今回はその中でもreal-time性の高いFairMOTを提案した論文「FairMOT: On the…

#FairMOT #トラッキング

2023-10-22

YOLOはもう古い？アンカーボックスフリーの物体検出モデルCenterNet

論文機械学習

ディープラーニングによる物体検出モデルと聞くとYOLOを真っ先に思い浮かべる人が多いのではないでしょうか。 YOLOはアンカーボックスと呼ばれる、bounding boxの候補を予め定義したものを利用する手法です。ただ数年前よりこのアンカーボックスを活用しない…

2023-05-28

gitで個人的に追加/変更したファイルを管理外にしたい

ソフトウェア開発

gitの管理対象外にしたい場合は.gitignoreを使いますが、個人的に追加/変更したファイルを共有の.gitignoreに追加するのは憚れます。そうした場合に使えるコマンドを調べました。個人的に追加したファイルを無視したいユースケース: 自分がよく使うコマン…

#git

2023-05-22

MetaのコンピュータビジョンモデルDINOv2はどのような自己教師あり学習を行っているか？(DINOv2: Learning Robust Visual Features without Supervision)

論文機械学習

DINOv2とは DINOv2は2023年4月にMetaより公開された、自己教師あり学習によるコンピュータビジョン(CV)モデルです。その名の通りDINOという既存のモデルの改良版です。自己教師あり学習は入力データ(画像)以外のラベルなしに学習をする手法ですが、下記のtw…

#ディープラーニング #コンピュータビジョン

2023-04-08

論文読み Segment Anything

論文機械学習

記事の概要 2023/4/5に発表されたMetaのセグメンテーションモデル: Segment Anything Model (SAM)の論文を紹介します。arxiv.org セグメンテーションは以下のように画像のピクセルを物体毎に区分けするようなタスクです。(注: 同じ種類のオブジェクト毎に区…

#ディープラーニング #セグメンテーション

2023-04-07

ChatGPTに関する有用な記事のまとめ(2023/4/7)

生成AI

記事の概要 ChatGPTは今までの流行りの技術とは一線を画している気がする方も多いのではないでしょうか？かくいう自分もその1人で、twitterや論文で最新情報を追っています。ただあまりにも進化が早すぎて全然ついていけていません。ということで本記事では…

#ChatGPT

2023-04-02

Waymoの行動予測モデル(Waymo at CoRL 2022 | Behavior Models for Autonomous Driving)

機械学習自動運転

記事の概要 2022年のConference on Robot Learningという学会でのWaymoの研究部門の責任者であるDrago Anguelov氏の講演内容をまとめます。動画中で多くの論文が紹介されていますが、本記事では概要にとどめて詳細な解説は別の記事に譲ります。また、本講演…

#自動運転

2023-03-30

論文読み A ConvNet for the 2020s

論文機械学習

記事の概要 Vision Transformerへ注目が集まる中、ConvNetの可能性を再考した論文"A ConvNet for the 2020s"を紹介します。arxiv.org 新規のテクニックを発見したのではなく、既存のテクニックを適切に組み合わせてVision Transformerに匹敵する性能を得たと…

#ディープラーニング #コンピュータビジョン

2023-03-19

論文読み Image as a Foreign Language: BEIT Pretraining for All Vision and Vision-Language Tasks

論文機械学習

記事の概要 Vision, Vision-Languageに対する基盤モデルであるBEIT-3に関する論文を紹介します。arxiv.org 論文の概要論文の1ページ目から目を引く結果が掲載されています。Vision, Vision-Languageのあらゆるタスクで既存の基盤モデルの性能を上回っていま…

#ディープラーニング

2023-03-19

読書記録 Optunaによるブラックボックス最適化

読書機械学習 Python

記事の概要機械学習モデルのハイパーパラメータサーチによく用いられるOptunaに関する本を読みましたので、学んだことをまとめます。 Optunaによるブラックボックス最適化作者:佐野正太郎,秋葉拓哉,今村秀明,太田健,水野尚人,柳瀬利彦オーム社Amazon 本から…

2023-03-19

論文読み MaskViT: Masked Visual Pre-Training for Video Prediction

機械学習論文

この記事の概要動画を入力して将来のフレームを予測するVideo Predictionの論文「MaskViT: Masked Visual Pre-Training for Video Prediction」を紹介します。arxiv.org モデルによる予測の例は以下のリンクから見ることができます。maskedvit.github.io な…

#ディープラーニング

2023-03-13

論文読み MetaFormer Is Actually What You Need for Vision

論文機械学習

記事の概要前回の記事でVision Transformerのself-attentionをMLPに置き換えても性能は変わらないという論文を紹介しました。aburaku.hatenablog.com 今回紹介する論文はさらに一歩進み、特徴量をmixするパートは何でもよくて、それ以外の構造自体が重要で…

#Transformer

2023-03-12

論文読み MLP-Mixer: An all-MLP Architecture for Vision

論文機械学習

記事の概要 Computer Visionの分野ではCNNとVision Transformer以外にMLPをベースにしたモデルが台頭しているということを聞き、一体どういうことなのか調べました。あまりいい感じの解説記事が見つからなかったので、元論文MLP-Mixer: An all-MLP Architec…

#Deep learning

2023-03-11

onnxファイルからパラメータ(weight, bias)を抽出する

tips Python 機械学習

やりたいことニューラルネットワークの表現形式の一つであるonnxファイルからパラメータを取り出したい。 PyTorchなどのフレームワークで一旦読み込んでからパラメータを取り出すこともできるかと思いますが、onnxだけで完結する方法を共有します。実装サ…

2023-02-26

「ゼロから始める情報発信」を読んで

読書その他

個人の情報発信について考えましたこれまで何度もブログを作っては飽きを繰り返してきましたが、今回はそこそこ続いているので今後も継続したいところ。ということで個人での発信を20年以上続けられている方の電子書籍を読んで、発信の意義と続けるための…

#情報発信

2023-02-19

Andrej KarpathyのGPT解説動画

機械学習

本記事の概要 TeslaでAI開発のディレクターを務め、現在はChatGPTで有名なOpenAIで働くAndrej KarpathyのGPT解説動画[Let's build GPT: from scratch, in code, spelled out.]を紹介します。 www.youtube.com 動画の概要 ChatGPTにも使用されている言語モデ…

#GPT3

2023-01-04

google colabのTPUをPyTorchで使う

tips Python

問題 google colabのTPUをPytorchで使いたい。ググって出てくるセットアップをするとエラーが出る。 # !pip install cloud-tpu-client==0.10 https://storage.googleapis.com/tpu-pytorch/wheels/torch_xla-1.9-cp37-cp37m-linux_x86_64.whl ERROR: torch_x…

#TPU #Google Colaboratory #Pytorch

2022-10-16

読書記録: A Philosophy of Software Design

ソフトウェア開発読書

0. この投稿の概要 1. 学んだこと設計の方針 deep module 2. 感想 0. この投稿の概要 "A Philosophy of Software Design"というソフトウェア設計の本を読んだのでその感想をまとめます。以下のような特徴を持った本で、多くの方におすすめできる一冊です。 …

2022-07-17

読書記録 GPUを支える技術

読書機械学習

0. この投稿の概要 1. 学んだことハードウェアソフトウェア 2. 感想 0. この投稿の概要「GPUを支える技術」を読んで学んだことをまとめました。2021年に出た増補改訂版の内容です。進化の激しい分野なので、読まれる場合は改訂版を手に取ることをおすすめ…

#GPU

2022-06-14

Can Spatiotemporal 3D CNNs Retrace the History of 2D CNNs and ImageNet?を読んだまとめ

論文機械学習

0. この投稿の概要 1. 論文の内容目的実験実験1 実験2 実験3 2. 感想 0. この投稿の概要動画認識の機械学習モデル、3DCNNに関する論文"Can Spatiotemporal 3D CNNs Retrace the History of 2D CNNs and ImageNet?"を読んだので、その内容をまとめます。…

#ディープラーニング #論文読み