AI 에이전틱 코딩의 미래: 비개발자가 1인 기업이 되는 법 (최신 트렌드)
1. DPO 알고리즘 그 이후, Process Supervision의 시대 RLHF의 기반이 되는 PPO 알고리즘부터 최신 트렌드인 DPO(Direct Preference Optimization) 알고리즘, 그리고 이를 활용한 비개발자의 바이브 코딩 도구와 대규모 서비스 구축 전략까지 섭렵했다. 특히 1편에서 다루었던 DPO 알고리즘은 AI 모델 학습의 효율성을 비약적으로 높여, 우리가 쓰는 도구들이 더 빠르게 인간의 의도를 파악하도록 만들었다. 그렇다면 AI 기술은 여기서 … 더 읽기