Human Feedback is not Gold Standard #2114

icoxfog417 · 2023-10-28T06:30:42Z

一言でいうと

LLM の出力を評価する際、人手の評価はそれほど信頼できないという研究。出力のエラータイプの評価と全体的な評価をそれぞれ別々に行ったところ、事実性や矛盾性が評価に与える影響が少ないことを発見。また、自信あるように書かれていると事実性の評価が揺らぐことを指摘

2023/9/28