【Waabi CVPR 24 Tutorial】 Motion Forecasting
カナダのトラック自動運転のスタートアップ、WaabiのMotion Forecastingチュートリアルから一部を抜粋してまとめました。本文中のスライドは動画をキャプチャしたものです。 www.youtube.com
内容の抜粋
認識と予測
- 従来予測タスクは認識とプランニングの間に位置していました。そのため認識によって得られた過去のトラジェクトリーと地図情報をNNに入力して未来のトラジェクトリーを得るというのが定番の形です。
- 本発表では認識と予測を一つのモデルに統合することの優位性を説いています。このタスクでは時系列のセンサーデータをNNに入力して、認識と予測を一度に行っています。
- 従来の認識側のノイズが予測に蓄積されたり、逆に情報が失われる可能性がある点を克服するとともに、計算量の点でも効率的な点で優位性があるようです。

リッチな特徴を得る
- 予測の入力には過去の情報は必要不可欠です。やはり従来は認識とトラッキングでトラジェクトリーを得ていましたが、本発表ではLiDARデータから直接特徴量を抽出する手法を説明しています。センサーデータにはどこが見えていないかというような情報も含まれているため、より多くの情報が含まれています。

予測タスクの立て方
- エージェント同士は互いに影響を及ぼすため、それぞれの未来の分布を独立して表現(marginal distribution)するよりも合わせて表現(joint distribution)した方が良さそうです。
以下のスライドのように予測結果が3通りある場合、エージェント毎に一番良い予測に対して学習をするとmarginal distributionが得られますが、これをシーン単位で一番良い予測に対して学習をすることでjoint distributionを得られるらしいです。

予測の出力形式として、トラジェクトリー以外に未来のセンサーデータそのものやOccupancyが紹介されています。特にOccupancyはトラジェクトリーとセンサーデータの良いとこどりと評価されています。
- トラジェクトリーよりも柔軟かつ、Lidarデータを使えば物体に対してアノテーションをする必要がないため教師なし学習も可能という点も評価されています。

感想
- 予測について従来型のトラジェクトリーをベースにしたモデルしか知らなかったので、思った以上にバリエーションが多くて驚きました。
- 予測はどうしても100%正しい結果を得られないため、その不確定性をどう扱うかという点に特に注目して今後は論文を読んでいこうと思います。