You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
Liyuan Liu University of Illinois, Urbana-Champaign
Haoming Jiang Georgia Tech
Pengcheng He, Weizhu Chen Microsoft Dynamics 365 AI
Xiaodong Liu, Jianfeng Gao Microsoft Research
Jiawei Han University of Illinois, Urbana-Champaig
一言でいうと
Adamの改善版「RAdam(Rectified Adam)」
Adamを改良することで、ウォームアップを必要とせずに同等の性能と学習率のロバスト性を示せた。
論文リンク
https://arxiv.org/pdf/1908.03265v1.pdf
著者/所属機関
Liyuan Liu University of Illinois, Urbana-Champaign
Haoming Jiang Georgia Tech
Pengcheng He, Weizhu Chen Microsoft Dynamics 365 AI
Xiaodong Liu, Jianfeng Gao Microsoft Research
Jiawei Han University of Illinois, Urbana-Champaig
投稿日付(yyyy/MM/dd)
2019/8/8
概要
今までAdam+ウォームアップの手法は多く使われてきたが、あまり理論的に説明されていることは少ない為に、様々な設定でトライ&エラーの時間に多くを割かれてきた。
この論文ではAdam+ウォームアップの原理を追求して、Adamの問題点を解明した。
その問題点を修正する整流項を追加することで、「RAdam」を提案する。
新規性・差分
Adamでは学習初期にサンプルが少ないことによって学習率に大きな分散があり、局所最適解に捕まる可能性があることを確認した。
一貫した学習率の分散を持つように整流項を追加することで、勾配分布の歪みを回避することができる。
手法
整流項を追加することで、学習初期の勾配分散の歪みを減らした。
整流項
結果
パフォーマンス比較
SGD、Adamと比較した際にはAdamよりも高い性能を残した。
SGDの性能には叶わないが、スピードはAdamと同等。初期段階では整流項により微妙にAdamのほうが早いが、その後は巻き返す。
学習率の変化によるロバスト性
複数の学習率を設定してみたが、RAdamはどれも最終的な性能への影響は少なかった。
ウォームアップとの比較
ウォープアップ+Adamとの比較。
ウォームアップのステップ数を[100,200,500,1000]それぞれに設定した場合、ステップ数と学習率の組み合わせによっては、いいパフォーマンスが出せない場合もあったが、RAdamは高い水準で同等以上の結果をだしている。
ステップ数を決める必要が無いから良い。
実装
https://github.com/LiyuanLucasLiu/RAdam
コメント
整流項のところが具体的に何をしているのかが良くわからん。
The text was updated successfully, but these errors were encountered: