We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Leveraging Pre-trained Checkpoints for Sequence Generation Tasks
Sascha Rothe, Shashi Narayan, Aliaksei Severyn
2019/07/29
BERT等は主に言語理解タスクに重点が置かれてきたが、テキスト生成タスクの為に学習済モデルのチェックポイントを活用した研究 機械翻訳、要約、分割、文融合等でsotaを出した。
BERTの論文は増えているが、seq2seqにおいて学習済モデルを使用する様な論文は少ない。 GPTやXLNetにおいてもテキスト生成モデルにも関わらず、モデルの再利用した様な論文は少ない。
エンコーダーデコーダーにBERTとGPT-2を様々な手法で組み合わせて、ひたすら実験を繰り返した。
文分割、文融合、機械翻訳、要約抽出のタスク
文融合のタスク wikipediaのデータを利用して、複数の文章を一貫した文に結合するタスク。 トレーニングデータサイズは4.5Mで、どの組み合わせにおいてもSOTAになった。 更に、10%1%のデータ使用でもそれなりにいいパフォーマンスになった。 また、GPTとBERTSHAREは少ないパラメータでも精度の差が少ない。
文分割、言い換えのタスク このタスクでもいいパフォーマンスを出した。
機械翻訳
エンコーダーにBERTを使うとパフォーマンスは良くなる。 GPTはドイツ語にはあまり対応できていないため、デコーダーに使うのは良くない。
要約 文脈理解をするためにはやはりBERTは優れているので、エンコーダーに使用したモデルはパフォーマンスが良い。デコーダーに入れるかどうかは重要ではない。
より大きなモデル 12層目のチェックポイントの結果は24層目でもあまり変わらない。
自然言語生成に関わる部分が全体的なパフォーマンスに大きく影響すると考えていたが、GPT-2を使用したモデルは思ったほど結果が出なかったのは意外だった。 ハイパーパラメータのせいかもと思い、いくつか調整したがほとんど結果は変わらなかった。
To tune or not to tune? adapting pretrained representations to diverse tasks. バートやエルモを有効に使う為に、特徴抽出器として使うか、Finetuningして使うか等を分析・比較した論文
XLNet: Generalized autoregressive pretraining for language understanding BERTの弱点を克服したXLnetの論文だが、BERTがテキスト生成に向いていないと言及されているらしい。
The text was updated successfully, but these errors were encountered:
No branches or pull requests
論文
Leveraging Pre-trained Checkpoints for Sequence Generation Tasks
著者/所属機関
Sascha Rothe, Shashi Narayan, Aliaksei Severyn
投稿日付(yyyy/MM/dd)
2019/07/29
1. どんなもの?
BERT等は主に言語理解タスクに重点が置かれてきたが、テキスト生成タスクの為に学習済モデルのチェックポイントを活用した研究
機械翻訳、要約、分割、文融合等でsotaを出した。
2. 先行研究と比べてどこがすごい?
BERTの論文は増えているが、seq2seqにおいて学習済モデルを使用する様な論文は少ない。
GPTやXLNetにおいてもテキスト生成モデルにも関わらず、モデルの再利用した様な論文は少ない。
3. 技術や手法のキモはどこ?
エンコーダーデコーダーにBERTとGPT-2を様々な手法で組み合わせて、ひたすら実験を繰り返した。
4. どうやって有効だと検証した?
文分割、文融合、機械翻訳、要約抽出のタスク
文融合のタスク
wikipediaのデータを利用して、複数の文章を一貫した文に結合するタスク。
トレーニングデータサイズは4.5Mで、どの組み合わせにおいてもSOTAになった。
更に、10%1%のデータ使用でもそれなりにいいパフォーマンスになった。
また、GPTとBERTSHAREは少ないパラメータでも精度の差が少ない。
文分割、言い換えのタスク
このタスクでもいいパフォーマンスを出した。
機械翻訳
エンコーダーにBERTを使うとパフォーマンスは良くなる。
GPTはドイツ語にはあまり対応できていないため、デコーダーに使うのは良くない。
要約
文脈理解をするためにはやはりBERTは優れているので、エンコーダーに使用したモデルはパフォーマンスが良い。デコーダーに入れるかどうかは重要ではない。
より大きなモデル
12層目のチェックポイントの結果は24層目でもあまり変わらない。
5. 議論はある?
自然言語生成に関わる部分が全体的なパフォーマンスに大きく影響すると考えていたが、GPT-2を使用したモデルは思ったほど結果が出なかったのは意外だった。
ハイパーパラメータのせいかもと思い、いくつか調整したがほとんど結果は変わらなかった。
6. 次に読むべき論文は?
To tune or not to tune? adapting pretrained representations to diverse tasks.
バートやエルモを有効に使う為に、特徴抽出器として使うか、Finetuningして使うか等を分析・比較した論文
XLNet: Generalized autoregressive pretraining for language understanding
BERTの弱点を克服したXLnetの論文だが、BERTがテキスト生成に向いていないと言及されているらしい。
7. 実装コード
The text was updated successfully, but these errors were encountered: