Factuality 3

Foundational Autoraters, Taming Large Language Models for Better Automatic Evaluation 2024/08/01
Chain-of-verification Reduces Hallucination in Large Language Models 2024/07/17
MART, Improving LLM Safety with Multi-round Automatic Red-Teaming 2024/06/17