HydraLoRA, An Asymmetric LoRA Architecture for Efficient Fine-Tuning
논문 링크 논문 배경 LoRA와 같은 parameter efficient finetuning 방법론은 일반적으로 복잡한 데이터셋에 대해서 학습할 때, full finetuning에 비해서 성능이 좋지 못하다. 이런 문제를 해결하기 위한 지난 연구들의 노력에서, 두 가지를 확인할 수 있었다. 하나의 LoRA를 구성하...
논문 링크 논문 배경 LoRA와 같은 parameter efficient finetuning 방법론은 일반적으로 복잡한 데이터셋에 대해서 학습할 때, full finetuning에 비해서 성능이 좋지 못하다. 이런 문제를 해결하기 위한 지난 연구들의 노력에서, 두 가지를 확인할 수 있었다. 하나의 LoRA를 구성하...
논문 링크 논문 링크 배경 기존의 MHA (multi-head attention)의 속도를 개선하기 위해서 MQA (multi-query attention)이 나왔다. query만 multi-head로 하고, key와 value는 single head로 구성하는 방식. 속도는 빨라지지만, 다음의 두 가지 문제가 있음 ...
논문 링크 논문 링크 Overview LLM을 평가하는 방법은 보통 비싸거나 (전문가가 직접 evaluation), 성능이 떨어진다 (LLM을 이용하거나, crowd sourcing 등). 사람이 evaluation하는 방식은, 주관적이기도 하고, 변동성이 크기도 하며, 무엇보다 정확도를 높이기 위해서는 비용이 비싸다...
논문 링크 논문 링크 배경 LLM은 hallucination을 생성하는 경향이 있다. 이를 해결하는 방법으로는 아래와 같은 방법들이 사용된다. 학습으로 해결하기 → RLHF, DPO 등의 추가 학습 추론할 때 해결하기 → DoLa 등 output distribution을 이용해서 수정 외부 데이터...
논문 링크 논문 링크 배경 LoRA를 위시로 한 PEFT 방법론이 널리 사용되고 있는데, full fine-tuning 방법과 비교했을 때 여전히 성능의 갭이 있다. 이 논문에서 그 갭의 원인을 파악하고, 이를 수정하는 DoRA라는 방법론을 제시한다. 성능 차이의 원인 파악 기존의 W를 magnitude와 dire...
논문 링크 논문 링크 개요 LLM의 이상한 행동을 제어하기 위한 수단으로, 사람이 개입하는 red teaming이 효과적이다. 이상한 행동들로는, 가짜를 진짜처럼 말하거나, 유해한 응답, 혹은 불법적인 이야기를 하는 것들이다. 이걸 확장해서, adversarial LLM과 target LLM으로 구분...
논문 링크 논문 링크 발표 기관: Standford Overview Generative language model (사실상 ChatGPT와 그 패밀리들)을 사용해서 sandbox 게임을 플레이하는 agent를 만들어냈다. 이 agents들은 믿을 수 있는 행동 (believability of agent behavior)을 한다. ...
논문 링크 논문 링크 발표 기관: Meta, New York University Overview DPO가 일반적인 task에서는 좋은 성능을 보이지만, reasoning task에서는 성능 향상이 높지 못하다. 이것을 개선하기 위해서, 아래 두 가지 방법을 제안한다. Chain-of-Thought를 포함한 결...