- AI가 내 말을 알아듣는 이유, RLHF와 PPO 알고리즘의 비밀
우리가 챗GPT나 클로드 같은 생성형 AI와 마치 사람과 대화하듯 편안하게 이야기하고, 심지어 코드를 짜달라고 요청할 수 있게 된 것은 그리 오래된 일이 아니다.
초기 언어 모델은 그저 다음에 올 단어를 통계적으로 예측하는 거대한 기계에 불과했다.
그런 기계가 어떻게 인간의 의도(Intent)를 파악하고, 유용한 답변을 하며, 무례한 질문을 거부할 수 있게 되었을까?
그 핵심 비밀은 바로 RLHF(Reinforcement Learning from Human Feedback, 인간 피드백 기반 강화학습)라는 기술에 있다. 비개발자가 AI를 활용해 코딩하는 ‘바이브 코딩’을 제대로 이해하려면, 먼저 AI가 어떻게 우리의 ‘바이브’를 이해하도록 학습되었는지, 그 근간이 되는 알고리즘을 알아야 한다.
RLHF는 쉽게 말해 거대한 고래 같은 AI 모델에게 인간의 예절과 대화법을 가르치는 과정이다.
이 과정은 크게 3단계로 나뉘는데, 마지막 단계에서 AI가 본격적으로 ‘강화학습’을 할 때 가장 오랫동안 표준으로 사용되어 온 알고리즘이 바로 PPO(Proximal Policy Optimization, 근접 정책 최적화)이다. PPO 알고리즘은 AI가 단순히 정답을 맞히는 것을 넘어, 인간이 선호하는 방식의 답변을 생성했을 때 ‘보상’을 주는 방식으로 학습을 진행한다.
참고 사항
- RLHF는 모델을 인간의 가치관에 정렬(Alignment)시키는 기술임
- PPO는 RLHF의 3단계 중 강화학습 단계에서 쓰이는 핵심 알고리즘임
PPO의 작동 원리를 조금 더 구체적으로 살펴보면, 이는 마치 ‘엄격하지만 공정한 선생님’과 같다. PPO는 ‘Actor-Critic(배우-비평가)’이라는 구조를 사용한다.
AI 모델(Actor)이 문장을 생성하면, 또 다른 AI 모델인 가치 네트워크(Critic)가 그 문장이 인간에게 얼마나 좋은 평점을 받을지 미리 예측한다.
그리고 실제 인간의 선호도를 반영하여 만들어진 ‘보상 모델(Reward Model)’로부터 점수를 받는다. PPO의 가장 큰 특징은 ‘Clipped Objective(제한된 목표)’라는 기능을 통해 AI가 너무 급격하게 학습 내용을 바꾸지 못하도록 제약한다는 점이다. 이는 AI가 갑자기 이상한 방향으로 튀는 것을 막고 안정적으로 학습하게 만든다.
하지만 비개발자 입장에서 이 PPO는 매우 다루기 힘든 고산지대와 같다.
모델이 보상을 극대화하기 위해 ‘꼼수’를 부려 이상한 문장을 반복 생성하는 현상(Reward Hacking)을 막기 위해 원래 모델과의 차이를 줄이는 복잡한 수학적 장치(KL-Divergence)가 필요하다. 또한 학습을 위해서는 Actor, Critic, Reference, Reward 등 여러 개의 무거운 모델을 동시에 메모리에 올려야 하므로 엄청난 컴퓨팅 자원이 소모되고 하이퍼파라미터 튜닝이 매우 까다롭다는 단점이 있다.
2. DPO 알고리즘의 등장, 복잡한 강화학습 없이 AI를 정렬하다
PPO 기반의 RLHF가 가진 복잡성과 비효율성을 해결하기 위해 등장한 혁신적인 대안이 바로 DPO(Direct Preference Optimization, 직접 선호 최적화) 알고리즘이다. 스탠포드 연구진이 제안한 이 방식은 최신 LLM(대형 언어 모델) 트렌드를 주도하고 있다. DPO의 핵심 아이디어는 간단하다. “왜 굳이 복잡하게 보상 모델을 따로 만들고 강화학습을 거쳐야 하는가?”라는 질문에서 시작한다.
DPO는 수학적으로 보상 함수와 최적 정책 사이의 관계를 유도하여, 인간의 선호도 데이터를 직접 모델의 손실 함수(Loss Function)에 녹여낸다.
비유하자면, PPO는 학생(AI)이 문제집을 풀 때마다 선생님(보상 모델)이 옆에서 점수를 매겨주고 그 점수를 바탕으로 학습하는 방식이라면, DPO는 학생에게 이미 채점이 완료된, 인간이 선호하는 답변(A)과 선호하지 않는 답변(B)의 쌍으로 구성된 문제집을 주고 직접 분류(Classification) 학습을 시키는 방식이다.
예시 사항
- PPO: 문제 해결 -> 보상 모델의 점수 -> 정책 업데이트 (복잡한 순환 과정)
- DPO: 선호 데이터(A > B) 직접 입력 -> 손실 함수 계산 -> 모델 업데이트 (단순한 분류 문제)
DPO algorithms의 장점은 비개발자가 듣기에도 매우 명확하다.
첫째, 단순성이다. 복잡한 강화학습 과정이 아예 생략되므로 구현과 관리가 훨씬 쉽다.
둘째, 효율성이다. 별도의 보상 모델을 유지하거나 복잡한 샘플링 과정이 필요 없어 학습 속도가 비약적으로 빠르고 필요한 메모리 자원도 적다.
셋째, 안정성이다. 강화학습 특유의 불안정성(수렴 문제 등)이 없으며, 실제 성능도 PPO와 비슷하거나 더 뛰어난 경우가 많아 최근 멘토(Llama 3 등)들이 이 방식을 채택하고 있다.
3. LLM 정렬 트렌드, DPO 이후의 변화와 미래
DPO 알고리즘의 등장으로 AI 모델 정렬은 더 빠르고 효율적인 시대로 접어들었다.
하지만 연구자들은 여기서 멈추지 않고 DPO의 한계를 극복하거나 PPO의 장점을 결합하려는 시도를 지속하고 있다. 이러한 최신 트렌드를 이해하는 것은 우리가 앞으로 만날 AI 도구들이 어떻게 진화할지 예측하는 데 도움이 된다.
최근 주요 알고리즘 트렌드를 살펴보면, 먼저 DPO가 학습 데이터에 너무 과하게 맞춰지는 과적합(Overfitting) 문제를 수학적으로 해결한 IPO(Identity-driven Preference Optimization)가 있다.
또한, 반드시 두 개의 답변 중 하나를 고르는 ‘이진 선택(Pairwise)’ 데이터가 아니라, 단일 문장에 대한 ‘좋음/나쁨’ 피드백만으로도 학습이 가능하게 설계된 KTO(Kahneman-Tversky Optimization)도 주목받고 있다. 더 나아가, SFT(지도 학습) 단계와 Alignment(정렬) 단계를 하나로 통합하여 학습 과정을 더 단축시키는 ORPO(Odds Ratio Preference Optimization) 같은 방식도 등장했다.
최신 트렌드 요약
- Online DPO: 고정된 데이터셋이 아니라, 학습 중 모델이 실시간으로 생성한 결과물에 대해 피드백을 받아 반영하는 방식임
- Process Supervision: 최종 결과뿐만 아니라, 모델의 단계별 추론 과정(CoT)에 대해 보상을 주는 방식임
가장 주목해야 할 변화는 단순히 “어떤 답변이 더 좋은가?”를 넘어, 모델의 ‘사고 과정’ 자체를 정렬하려는 시도이다. 이를 Process Supervision이라고 하는데, 이는 특히 LLM의 수학적 추론 능력이나 복잡한 코딩 능력을 높이는 데 핵심적인 역할을 한다. 우리가 바이브 코딩을 할 때 AI가 더 논리적이고 정확한 코드를 내놓게 되는 배경에는 이러한 기술적 진보가 자리 잡고 있다는 것이다.
4. 인간을 닮아가는 AI, 그리고 우리의 역할
AI가 인간의 의도를 이해하고 정렬되는 핵심 기술인 RLHF의 과거 표준이었던 PPO 알고리즘부터 최신 트렌드인 DPO 알고리즘, 그리고 그 이후의 변형 알고리즘까지 살펴보았다. PPO가 복잡하지만 강력한 강화학습의 시대를 열었다면, DPO는 이를 단순화하고 효율화하여 더 많은 이가 고성능 AI를 누릴 수 있게 만들었다.
참고 사항
- PPO: 복잡함, 자원 많이 듦, 안정성 낮음, 그러나 강력함
- DPO: 단순함, 효율적임, 안정성 높음, 최신 LLM 트렌드임
결국 이 모든 기술적 노력의 지향점은 AI를 더욱 ‘인간답게’ 만드는 것이다. 인간의 미묘한 선호도를 파악하고, 논리적으로 사고하며, 안전하게 작동하는 AI를 만드는 것, 이것이 바로 Alignment(정렬)의 목표이다. 비개발자인 우리가 이 기술의 상세한 수학 공식을 알 필요는 없다. 하지만 AI가 이러한 원리로 우리의 ‘바이브’를 학습했다는 것을 이해한다면, 우리는 AI라는 강력한 인턴을 더욱 신뢰하고 effective하게 부려먹을 수 있을 것이다. 다음 편에서는 이렇게 학습된 AI를 활용하여 실제 코딩을 해보는 ‘바이브 코딩’의 구체적인 방법과 도구들에 대해 알아본다.