Fast Model Editing at Scale #2101

icoxfog417 · 2021-10-29T11:30:02Z

一言でいうと

破壊的忘却なしに事前学習済みモデルの「編集」を行う研究。全結合のシンプルなネットワークで、転移学習した場合の重みを元のパラメータと大きく離れないように編集して適用する。ただ、勾配の次元は大きいためパラメータを直積の形式に分解して計算する。
T5やGPTといった億単位級モデルで効果を確認

Eric Mitchell, Charles Lin, Antoine Bosselut, Chelsea Finn, Christopher D. Manning