Distill or Annotate? Cost-Efficient Fine-Tuning of Compact Models #2115

icoxfog417 · 2023-11-07T07:23:44Z

一言でいうと

予算上限がある場合、データをアノテーションして小さなモデルを作るのと、大きなモデルを蒸留する学習コストに使うのとではどちらが効率的かを検証した研究。固有表現認識、分類、事実検証、言い換え検知、言い換え生成、Q&A の 6 つのタスクで T5-small の scratch 学習と T5-XXL からの出力確率分布を用い学習した T5-small を比較しいずれも蒸留が効率的。蒸留時に少量のアノテーションデータを加えることでさらに性能を向上できる。生成タスクで最も蒸留が効果的。

論文リンク

https://arxiv.org/abs/2305.01645

著者/所属機関

Junmo Kang, Wei Xu, Alan Ritter

Georgia Institute of Technology

投稿日付(yyyy/MM/dd)

2023/5/2

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Distill or Annotate? Cost-Efficient Fine-Tuning of Compact Models #2115

Distill or Annotate? Cost-Efficient Fine-Tuning of Compact Models #2115

icoxfog417 commented Nov 7, 2023 •

edited

Distill or Annotate? Cost-Efficient Fine-Tuning of Compact Models #2115

Distill or Annotate? Cost-Efficient Fine-Tuning of Compact Models #2115

Comments

icoxfog417 commented Nov 7, 2023 • edited

一言でいうと

論文リンク

著者/所属機関

投稿日付(yyyy/MM/dd)

概要

新規性・差分

手法

結果

コメント

icoxfog417 commented Nov 7, 2023 •

edited