PolyViT: Co-training Vision Transformers on Images, Videos and Audio #2107

icoxfog417 · 2021-12-04T11:54:45Z

一言でいうと

画像、動画、音声をまとめて学習するTransformerの提案。2D画像をバッチに分割し重みをかけて固定長ベクトルにする考えを基本とし、動画も重複のないパーツに区切って同様に処理、音声はスペクトログラムを画像として処理している。動画/音声の分類でSOTAを達成。

Valerii Likhosherstov, Anurag Arnab, Krzysztof Choromanski, Mario Lucic, Yi Tay, Adrian Weller, Mostafa Dehghani

2021/11/25