DPO 완벽 분석: 당신의 언어 모델은 사실 보상 모델이었다? (LLM 얼라인먼트 신기술)
대규모 언어 모델(LLM)은 놀라운 능력을 보여주지만, 우리가 원하는 방식으로 안전하고 유용하게 작동하도록 제어하는 것은 여전히 어려운 과제입니다. 기존에는 주로 인간 피드백 기반 강화학습(RLHF) 방식을 사용했지만, 이 방식은 여러 모델을 학습시키고 복잡한 강화학습 파이프라인을 거쳐야 하므로 불안정하고 많은 계산 비용이 든다는 단점이 있었습니다.
스탠포드 연구팀은 이러한 문제를 해결하기 위해 Direct Preference Optimization (DPO)라는 새로운 알고리즘을 제안합니다. DPO는 RLHF의 복잡한 과정을 거치지 않고, 간단한 분류 손실(classification loss)만으로 언어 모델이 인간의 선호도를 따르도록 직접 최적화하는 획기적인 방법입니다.
기존 RLHF의 문제점: 복잡성과 불안정성
기존의 RLHF 방식은 크게 세 단계로 진행됩니다.
- 지도 미세 조정 (Supervised Fine-tuning, SFT): 사전 학습된 LLM을 고품질 데이터셋으로 미세 조정하여 특정 작업(요약, 대화 등)에 대한 기본적인 능력을 갖춘 모델(πSFT)을 만듭니다.
- 보상 모델링 (Reward Modeling, RM): SFT 모델을 이용하여 여러 응답 쌍(y1, y2)을 생성하고, 인간이 선호하는 응답(yw)과 선호하지 않는 응답(yl)을 레이블링합니다. 이 선호도 데이터셋(D)을 사용하여, 주어진 응답이 얼마나 좋은지를 평가하는 보상 모델(rϕ)을 학습시킵니다. 일반적으로 Bradley-Terry 모델 등을 가정하여 선호 확률을 모델링하고, 분류 손실(Eq. 2)을 최소화하는 방식으로 학습합니다.
- 강화학습 미세 조정 (RL Fine-tuning): 학습된 보상 모델(rϕ)을 사용하여 언어 모델 정책(πθ)을 최적화합니다. 이때, 보상 모델의 점수는 최대화하면서도 초기 SFT 모델(πref)로부터 너무 멀어지지 않도록 KL 발산 제약(KL divergence constraint)을 추가합니다(Eq. 3). 이 단계는 일반적으로 PPO와 같은 강화학습 알고리즘을 사용하며, 학습 과정에서 LLM으로부터 샘플링이 필요하여 계산 비용이 높고 학습이 불안정한 경우가 많습니다.
![]() |
| RLHF 개념도(논문 Figure 1) |
이러한 다단계 과정, 특히 강화학습 단계는 RLHF를 구현하고 안정적으로 학습시키는 것을 어렵게 만드는 주요 원인이었습니다.
DPO의 등장: 강화학습 없는 직접 최적화
DPO는 "언어 모델이 사실은 보상 모델의 역할을 할 수 있다"는 아이디어에서 출발합니다. RLHF의 목표인 KL 제약이 있는 보상 최대화 문제(Eq. 3)의 최적 정책(πr)은 사실 다음과 같은 닫힌 형태(closed-form)로 표현될 수 있습니다(Eq. 4):
πr(y|x) ∝ πref(y|x) * exp( (1/β) * r(x, y) )
여기서 r(x, y)는 보상 함수, πref는 참조 정책, β는 KL 제약을 조절하는 온도 파라미터입니다. DPO는 이 관계를 역으로 이용하여, 보상 함수 r(x, y)를 최적 정책 πr과 참조 정책 πref의 함수로 재정의합니다(Eq. 5):
r(x, y) = β * log( πr(y|x) / πref(y|x) ) + β * log(Z(x))
여기서 Z(x)는 정규화 상수(partition function)입니다.
놀랍게도, 이 재정의된 보상 함수를 Bradley-Terry와 같은 선호도 모델(Eq. 1)에 대입하면, 복잡한 정규화 상수 Z(x) 항이 사라집니다. 결과적으로, 인간의 선호 확률 p*(yw > yl | x)를 실제 보상 모델 없이, 최적화하려는 정책 모델 πθ와 참조 모델 πref의 확률 비율만으로 표현할 수 있게 됩니다(Eq. 6).
이를 통해 DPO는 다음과 같은 매우 간단한 분류 형태의 손실 함수를 정의하여 정책 모델 πθ를 직접 최적화합니다(Eq. 7):
LDPO(πθ; πref) = -E(x,yw,yl)~D [ log σ( β * log( πθ(yw|x) / πref(yw|x) ) - β * log( πθ(yl|x) / πref(yl|x) ) ) ]
여기서 σ는 시그모이드 함수입니다. 이 손실 함수는 본질적으로 선호되는 응답 yw의 상대적 로그 확률(πθ/πref)을 높이고, 선호되지 않는 응답 yl의 상대적 로그 확률을 낮추도록 모델을 업데이트합니다. 중요한 점은 업데이트 강도가 암시적 보상 모델(rθ)이 얼마나 잘못 예측했는지에 따라 가중된다는 것입니다(손실 함수의 그래디언트 분석 참고).
![]() |
| DPO 개념도(논문 Figure 1) |
이처럼 DPO는 별도의 보상 모델 학습 단계와 복잡한 강화학습 과정 없이, 단일 단계의 분류 손실 최소화만으로 RLHF와 동일한 목표를 달성합니다.
DPO는 왜 효과적인가? (이론적 배경)
DPO의 핵심은 보상 함수를 정책 함수의 비율로 재정의하는 것입니다. 논문에서는 이러한 재정의가 Plackett-Luce (Bradley-Terry 포함) 선호도 모델 하에서 보상 함수의 표현력을 제한하지 않음을 이론적으로 증명합니다(Theorem 1, Lemma 1 & 2). 즉, DPO는 특정 형태의 보상 함수만 학습 가능한 것이 아니라, 기존 RLHF가 찾을 수 있는 최적 정책과 동일한 정책을 찾을 수 있습니다.
또한, DPO의 목적 함수는 기존 RLHF에서 사용하는 액터-크리틱(Actor-Critic) 알고리즘(예: PPO)의 불안정성 문제를 피할 수 있습니다. 액터-크리틱 방식은 종종 가치 함수(value function)나 정규화 상수 추정의 어려움으로 인해 학습이 불안정해질 수 있지만, DPO는 이러한 추정 없이 직접 정책을 최적화하므로 더 안정적인 학습이 가능합니다.
DPO의 실험 결과: RLHF를 능가하는 성능
연구팀은 감성 제어, 요약, 단일 턴 대화 등 다양한 작업에서 DPO의 성능을 검증했습니다.
감성 제어: 제어된 환경에서 DPO는 PPO (심지어 실제 보상 함수에 접근 가능한 PPO-GT 포함)보다 훨씬 효율적인 보상/KL 트레이드오프를 달성했습니다. 즉, 참조 정책에서 멀어지는 정도(KL) 대비 더 높은 보상을 얻었습니다.
요약 (TL;DR): Reddit 게시물 요약 작업에서 DPO는 PPO 기반 RLHF의 최고 성능을 능가했으며, 다양한 샘플링 온도에서도 더 강건한 성능을 보였습니다. GPT-4를 이용한 평가에서 DPO는 참조 요약 대비 약 61%의 승률을 기록했습니다.

TL;DR 요약 성능 그래프(논문 Figure 2) 단일 턴 대화 (Anthropic-HH): DPO는 다른 계산 효율적인 방법들(SFT, Preferred-FT)과 비교했을 때 유일하게 성능 향상을 보였으며, 계산 비용이 매우 높은 Best-of-128 기준선과 비슷하거나 더 나은 성능을 보였습니다.

Anthropic-HH 대화 승률 그래프(논문 Figure 3) 분포 외 일반화: CNN/DailyMail 뉴스 기사 요약이라는 새로운 데이터 분포에서도 DPO는 PPO보다 높은 승률을 유지하여, 유사한 수준의 일반화 성능을 보일 수 있음을 시사했습니다.
인간 평가 검증: GPT-4를 이용한 자동 평가의 신뢰성을 검증하기 위해 수행된 인간 평가에서도, GPT-4의 판단과 인간의 판단이 높은 상관관계를 보임을 확인했습니다.

GPT-4, Human 평가 비교 표(논문 Table2)
DPO의 장점 요약
- 단순성: 별도의 보상 모델 학습이나 강화학습 파이프라인 없이 간단한 분류 손실만으로 학습 가능합니다.
- 안정성: 액터-크리틱 방법의 불안정성 없이 안정적으로 학습됩니다.
- 계산 효율성: 미세 조정 중 LLM에서 샘플링할 필요가 없어 계산 비용이 적습니다.
- 성능: 기존 RLHF 방법과 비슷하거나 더 우수한 성능을 보입니다.
한계점 및 향후 연구
DPO는 매우 유망한 방법이지만, 분포 외 일반화 성능에 대한 더 깊은 연구, 보상 과적합(over-optimization) 문제, 더 큰 모델로의 확장성 등에 대한 추가적인 연구가 필요합니다.
결론
Direct Preference Optimization (DPO)는 인간 선호도를 사용하여 언어 모델을 정렬하는 과정을 혁신적으로 단순화한 알고리즘입니다. 복잡한 강화학습 없이도 안정적이고 효율적으로 강력한 성능을 달성함으로써, 향후 LLM 얼라인먼트 연구 및 응용에 핵심적인 역할을 할 것으로 기대됩니다. DPO는 "여러분의 언어 모델이 사실은 비밀리에 보상 모델이었다"는 흥미로운 통찰력을 제공하며, 더 많은 연구자들이 선호도 기반 학습을 쉽게 시도할 수 있도록 문턱을 낮추었습니다.



