We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
大規模言語モデルの転移学習がモデル内のサブ空間で行われている可能性を示唆した研究。モデルの重みをエポックごと保存し、Flatten したうえで時系列にスタックし SVD をかけることで Fine Tuning 中のパラメーター変動をよく説明する軸を発見。この軸上で異常値を示すパラメーターを無効化すると性能が著しく下がることを確認。
https://arxiv.org/abs/2305.17446
Zhong Zhang, Bang Liu, Junming Shao
2023/5/27
The text was updated successfully, but these errors were encountered:
No branches or pull requests
一言でいうと
大規模言語モデルの転移学習がモデル内のサブ空間で行われている可能性を示唆した研究。モデルの重みをエポックごと保存し、Flatten したうえで時系列にスタックし SVD をかけることで Fine Tuning 中のパラメーター変動をよく説明する軸を発見。この軸上で異常値を示すパラメーターを無効化すると性能が著しく下がることを確認。
論文リンク
https://arxiv.org/abs/2305.17446
著者/所属機関
Zhong Zhang, Bang Liu, Junming Shao
投稿日付(yyyy/MM/dd)
2023/5/27
概要
新規性・差分
手法
結果
コメント
The text was updated successfully, but these errors were encountered: