We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
予算上限がある場合、データをアノテーションして小さなモデルを作るのと、大きなモデルを蒸留する学習コストに使うのとではどちらが効率的かを検証した研究。固有表現認識、分類、事実検証、言い換え検知、言い換え生成、Q&A の 6 つのタスクで T5-small の scratch 学習と T5-XXL からの出力確率分布を用い学習した T5-small を比較しいずれも蒸留が効率的。蒸留時に少量のアノテーションデータを加えることでさらに性能を向上できる。生成タスクで最も蒸留が効果的。
https://arxiv.org/abs/2305.01645
Junmo Kang, Wei Xu, Alan Ritter
2023/5/2
The text was updated successfully, but these errors were encountered:
No branches or pull requests
一言でいうと
予算上限がある場合、データをアノテーションして小さなモデルを作るのと、大きなモデルを蒸留する学習コストに使うのとではどちらが効率的かを検証した研究。固有表現認識、分類、事実検証、言い換え検知、言い換え生成、Q&A の 6 つのタスクで T5-small の scratch 学習と T5-XXL からの出力確率分布を用い学習した T5-small を比較しいずれも蒸留が効率的。蒸留時に少量のアノテーションデータを加えることでさらに性能を向上できる。生成タスクで最も蒸留が効果的。
論文リンク
https://arxiv.org/abs/2305.01645
著者/所属機関
Junmo Kang, Wei Xu, Alan Ritter
投稿日付(yyyy/MM/dd)
2023/5/2
概要
新規性・差分
手法
結果
コメント
The text was updated successfully, but these errors were encountered: