Leveraging Pre-trained Checkpoints for Sequence Generation Tasks #8

raxman0721 · 2019-08-27T10:58:39Z

論文

Sascha Rothe, Shashi Narayan, Aliaksei Severyn

2019/07/29

BERT等は主に言語理解タスクに重点が置かれてきたが、テキスト生成タスクの為に学習済モデルのチェックポイントを活用した研究
機械翻訳、要約、分割、文融合等でsotaを出した。

BERTの論文は増えているが、seq2seqにおいて学習済モデルを使用する様な論文は少ない。
GPTやXLNetにおいてもテキスト生成モデルにも関わらず、モデルの再利用した様な論文は少ない。

エンコーダーデコーダーにBERTとGPT-2を様々な手法で組み合わせて、ひたすら実験を繰り返した。

文分割、文融合、機械翻訳、要約抽出のタスク

エンコーダーにBERTを使うとパフォーマンスは良くなる。
GPTはドイツ語にはあまり対応できていないため、デコーダーに使うのは良くない。

自然言語生成に関わる部分が全体的なパフォーマンスに大きく影響すると考えていたが、GPT-2を使用したモデルは思ったほど結果が出なかったのは意外だった。
ハイパーパラメータのせいかもと思い、いくつか調整したがほとんど結果は変わらなかった。

To tune or not to tune? adapting pretrained representations to diverse tasks.
バートやエルモを有効に使う為に、特徴抽出器として使うか、Finetuningして使うか等を分析・比較した論文

XLNet: Generalized autoregressive pretraining for language understanding
BERTの弱点を克服したXLnetの論文だが、BERTがテキスト生成に向いていないと言及されているらしい。

raxman0721 added AE Auto Encoder NLP seq2seq labels Aug 27, 2019