Foundational Autoraters, Taming Large Language Models for Better Automatic Evaluation

게시 2024/08/01 업데이트 2024/08/01

By Ethereal

6 분읽는 시간

논문 링크

LLM을 평가하는 방법은 보통 비싸거나 (전문가가 직접 evaluation), 성능이 떨어진다 (LLM을 이용하거나, crowd sourcing 등).
- 사람이 evaluation하는 방식은, 주관적이기도 하고, 변동성이 크기도 하며, 무엇보다 정확도를 높이기 위해서는 비용이 비싸다 (실제 가격의 측면에서도, 시간의 측면에서도)
- LLM을 이용하는 방식은 데이터 편향과 hallucination 문제가 있다.
DeepMind는 공개된 데이터들을 이용해서, 일반적으로 evaluation을 잘 하는 모델을 학습시켰다.
- 지난 연구들에서 사용한 human evaluation 데이터를 약 530만건 정도 모았으며, 이를 잘 분류하고 평가해서 LLM을 이용하는 평가 방식의 단점을 보완했다.
이 모델들은 시중의 LLM (chatgpt4, claude3 등)보다 RewardBench에서 성능이 좋았으며, LLM-as-a-Judge 모델에 비해서 데이터 편향이 적었다.

FLAMe
- PaLM-2-24B를 베이스로 모델을 학습함 (full fine-tuning)
- 각 task 별로 skew되는 것을 방지하기 위해서, 최대 2^16의 데이터만 사용함
- 30K training step까지 학습
FLAMe-RM
- reward model 전용으로, pairwise dataset만 추가로 학습을 더 함. 이 데이터는 앞에서 FLAMe에서도 학습한 데이터이므로, 50 step만 추가로 학습시킴
FLAMe-Opt-RM
- 우리의 목적은 RewardBench에서 1등하는 것이 아니기 때문에, 보다 다양한 task를 잘 수행하는 모델이 필요함
- 중간 스텝까지 FLAMe을 학습한 뒤, 이 weight를 가지고 각 task 별로 짧게 (3000 스텝 이내) 학습시킴
- 그리고 각 task에 특화된 모델의 성능을 평가해서, 어떤 task의 데이터를 조금 더 높이고, 어떤 task의 데이터를 조금 더 줄여야 하는지 결정함

일반적인 목적의 Reward model을 학습할 때, 하나씩 specific하게 하는 것이 아니라, multitask로 학습해도 꽤 좋은 성능을 보인다.
tail-patch 등을 통해서 bias를 제거하고, 이런 모델을 이용해서 re-ranking도 사용이 가능하다.