Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Distill or Annotate? Cost-Efficient Fine-Tuning of Compact Models #2115

Open
icoxfog417 opened this issue Nov 7, 2023 · 0 comments
Open

Comments

@icoxfog417
Copy link
Member

icoxfog417 commented Nov 7, 2023

一言でいうと

予算上限がある場合、データをアノテーションして小さなモデルを作るのと、大きなモデルを蒸留する学習コストに使うのとではどちらが効率的かを検証した研究。固有表現認識、分類、事実検証、言い換え検知、言い換え生成、Q&A の 6 つのタスクで T5-small の scratch 学習と T5-XXL からの出力確率分布を用い学習した T5-small を比較しいずれも蒸留が効率的。蒸留時に少量のアノテーションデータを加えることでさらに性能を向上できる。生成タスクで最も蒸留が効果的。

論文リンク

https://arxiv.org/abs/2305.01645

著者/所属機関

Junmo Kang, Wei Xu, Alan Ritter

  • Georgia Institute of Technology

投稿日付(yyyy/MM/dd)

2023/5/2

概要

新規性・差分

手法

結果

コメント

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

1 participant