Agentic AI 논문 읽기: RLHF의 한계 — 인간 피드백 강화학습의 미해결 과제

Written by Theo2026년 4월 8일 · 8 min read

시리즈의 글 (25개)

  1. Agentic AI 논문 읽기: CoALA — 언어 에이전트를 위한 인지 아키텍처
  2. Agentic AI 논문 읽기: ReAct — 생각과 행동을 엮은 최초의 패턴
  3. Agentic AI 논문 읽기: CoT — 생각의 사슬이 추론을 깨운 순간
  4. Agentic AI 논문 읽기: Toolformer — 언어 모델이 스스로 도구를 잡은 순간
  5. Agentic AI 논문 읽기: AutoGen — 대화로 엮는 다중 에이전트 시스템
  6. Agentic AI 논문 읽기: MetaGPT — SOP로 설계한 다중 에이전트 조직
  7. Agentic AI 논문 읽기: Multi-Agent Survey — 집단 지능의 지도를 펼치다
  8. Agentic AI 논문 읽기: Reflexion — 실패를 언어로 되감는 에이전트
  9. Agentic AI 논문 읽기: LATS — 트리 탐색으로 추론과 행동을 통합하다
  10. Agentic AI 논문 읽기: ETO — 실패 궤적으로 에이전트를 훈련하다
  11. Agentic AI 논문 읽기: AI Agents That Matter — 벤치마크의 함정을 파헤치다
  12. Agentic AI 논문 읽기: Paradigms — 도구 사용·계획·피드백의 삼각 구도
  13. Agentic AI 논문 읽기: Halo — DAG로 에이전트 워크플로우를 최적화하다
  14. Agentic AI 논문 읽기: Tool Use Evolution — 단일 도구에서 다중 오케스트레이션까지
  15. Agentic AI 논문 읽기: BloombergGPT — 금융 특화 대규모 언어 모델의 탄생
  16. Agentic AI 논문 읽기: FinGPT — 오픈소스 금융 LLM 프레임워크
  17. Agentic AI 논문 읽기: ₩on — 한국어 금융 NLP의 첫 번째 벤치마크
  18. Agentic AI 논문 읽기: DocLLM — 레이아웃 인식 문서 이해 모델
  19. Agentic AI 논문 읽기: FINCH — 스프레드시트 중심 재무 벤치마크
  20. Agentic AI 논문 읽기: InvestorBench — 금융 의사결정 에이전트 벤치마크
  21. Agentic AI 논문 읽기: Constitutional AI — 원칙 기반 자기 개선
  22. Agentic AI 논문 읽기: RLHF의 한계 — 인간 피드백 강화학습의 미해결 과제
  23. Agentic AI 논문 읽기: Autonomous Agents Survey — 자율 에이전트 구축의 해부도
  24. Agentic AI 논문 읽기: Rise and Potential — 뇌·지각·행동으로 본 에이전트 전망
  25. Agentic AI 논문 읽기: A-MEM — 제텔카스텐에서 영감받은 에이전트 기억 시스템

Agentic AI 논문 읽기: RLHF의 한계 — 인간 피드백 강화학습의 미해결 과제

논문 정보

  • 제목: Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback
  • 저자: Stephen Casper, Xander Davies, Claudia Shi 외
  • 출판: arXiv 2307.15217 (2023.07)

앞선 글에서 Constitutional AI가 인간 피드백 없이 원칙만으로 AI를 정렬하려 했다. 인간 대신 헌법을 세우고, AI가 스스로 자기 출력을 비판하고 수정하게 했다. 왜 그런 우회로가 필요했을까? 인간 피드백이 충분히 좋은 신호라면, 굳이 원칙이라는 추상 계층을 끼워넣을 이유가 없다. Constitutional AI는 답이었다. 이 논문은 그 답이 필요했던 질문 — RLHF는 어디서, 왜, 얼마나 부서지는가 — 을 체계적으로 정리한다.

RLHF(Reinforcement Learning from Human Feedback)는 ChatGPT를 가능하게 한 핵심 기술이다. 사전 훈련된 LLM이 방대한 지식을 갖추지만 인간의 의도에 맞게 응답하지는 못하는 문제를, 인간의 선호 데이터로 미세 조정하여 풀었다. 인간이 좋은 응답과 나쁜 응답을 비교 평가하고, 그 선호를 보상 신호로 변환하여 모델을 정렬한다. 2022년 말 ChatGPT의 등장 이후, RLHF는 LLM 정렬의 사실상 표준이 되었다.

기술적으로는 성공이었다. 사전 훈련만 거친 모델이 보여주던 난잡하고 때로 유해한 출력이, RLHF를 거치면 정돈되고 유용해졌다. 하지만 이 파이프라인의 매 단계에, 표면 아래에서 균열이 자라고 있었다. 2023년 7월, MIT와 ETH Zurich, Stanford, UC Berkeley의 연구자들이 그 균열의 목록을 작성했다. 40페이지가 넘는 이 서베이는 RLHF의 찬사가 아니라 부검 보고서에 가깝다.

잘 작동하는 기계의 숨겨진 결함 — RLHF 파이프라인 해부

RLHF의 3단계 파이프라인은 정교한 조립 공정과 비슷하다. 원재료를 수급하고, 부품을 가공하고, 완성품을 조립한다. 각 단계가 이전 단계의 출력에 의존한다. 문제는, 첫 단계의 미세한 결함이 최종 단계에서 증폭된다는 것이다. 불순물이 섞인 원재료로 만든 부품은, 아무리 정밀하게 조립해도 결함 있는 완성품을 낳는다.

실제 파이프라인은 RLHF 이전에 두 단계를 더 거친다. 먼저 대규모 코퍼스로 사전 훈련(Pre-training)을 하고, 고품질 시연 데이터로 지도 미세 조정(SFT, Supervised Fine-Tuning)을 수행한다. 여기까지는 비교적 잘 이해된 영역이다. RLHF는 그 위에 쌓이는 마지막 세 단계다.

1단계는 피드백 수집이다. 인간 평가자가 모델의 출력 쌍을 비교하여 어느 쪽이 나은지 판단한다. 비교 판단(pairwise comparison)을 사용하는 이유는, 절대 점수를 매기는 것보다 상대적 비교가 인간에게 더 쉽고 일관적이기 때문이다. 2단계는 보상 모델 학습이다. 수집된 선호 데이터로 보상 모델(Reward Model)을 훈련시켜, 임의의 출력에 대해 스칼라 점수를 예측하게 한다. Bradley-Terry 모델 같은 확률 프레임워크로 쌍별 비교를 점수로 변환한다. 3단계는 정책 최적화다. PPO(Proximal Policy Optimization) 같은 강화학습 알고리즘으로, 보상 모델의 점수를 최대화하는 방향으로 LLM을 미세 조정한다.

각 단계는 그 자체로 하나의 연구 분야이고, 각 단계에 고유한 실패 모드가 있다. 논문은 이 실패 모드들을 하나하나 명명하고 분류한다. 병의 이름을 알아야 치료를 시작할 수 있듯이.

원재료의 불순물 — 피드백 수집의 구조적 문제

피드백 수집 단계의 근본 가정은 "인간이 좋은 출력과 나쁜 출력을 구별할 수 있다"는 것이다. 이 가정이 흔들리는 지점은 여러 곳이다.

첫째, 비일관성이다. 동일한 출력 쌍에 대해 서로 다른 평가자가 서로 다른 판단을 내린다. 같은 평가자도 시간이 지나면 판단을 바꾼다. 피로, 주의력, 그날의 기분이 변수로 작용한다. 이것은 단순한 노이즈가 아니다. 보상 모델이 학습하는 목표 자체가 흔들린다는 뜻이다.

둘째, 체계적 편향이다. 인간 평가자는 긴 응답을 짧은 응답보다 선호하는 경향이 있다 — 실제 정보량과 무관하게. 앞에 제시된 선택지를 뒤의 것보다 선호하는 순서 효과도 관찰된다. 사회적으로 바람직해 보이는 답을 실제로 정확한 답보다 높이 평가하는 편향도 있다. 이런 편향은 개별 평가에서는 미세하지만, 수만 건의 선호 데이터에 체계적으로 누적되면 보상 모델의 기울기를 왜곡한다.

셋째, 역량의 한계다. 수학 증명의 정확성, 코드의 보안 취약점, 법률 자문의 적절성 — 이런 영역에서 비전문가 평가자의 판단은 신뢰하기 어렵다. 논문은 이를 "감독 불가능성(unmonitorability)"이라 부른다. 모델의 출력이 인간 평가자의 판단 능력을 넘어서는 순간, 피드백의 품질이 급락한다. AI 시스템이 점점 강해질수록, 이 문제는 악화될 수밖에 없다.

넷째, 다수결의 함정이다. 선호 데이터를 다수의 평가자에게서 수집하면 노이즈가 줄어들 것 같지만, 다수 의견이 소수 의견을 체계적으로 무시하는 문제가 생긴다. 문화적 맥락, 소수 집단의 가치관, 비주류적 관점이 다수결 과정에서 소거된다. 모델은 "평균적 인간"의 선호를 학습하지만, 평균적 인간은 어디에도 존재하지 않는다.

다섯째, 비용과 확장성이다. 고품질 인간 피드백을 수집하는 것은 비용이 높고 시간이 오래 걸린다. 모델이 업데이트될 때마다 피드백을 다시 수집해야 하는데, 모델의 출력 분포가 변했으므로 이전 피드백의 유효성이 떨어진다. 이 반복 비용이 RLHF의 실무적 병목이며, RLAIF가 등장한 직접적 동기이기도 하다.

정보의 압축 손실 — 보상 모델의 구조적 한계

2단계로 넘어오면, 문제의 성격이 바뀐다. 1단계의 문제가 "신호의 품질"이었다면, 2단계의 문제는 "신호의 변환"이다.

인간의 복잡한 선호를 하나의 스칼라 값으로 환원하는 것 자체가 근본적 정보 손실이다. "이 응답은 사실적으로는 정확하지만, 톤이 거만하고, 핵심을 지나치게 늦게 제시한다"는 다차원적 평가가, 0.73이라는 하나의 숫자로 압축된다. 그 숫자 안에서 정확성, 톤, 구조가 어떤 비율로 반영됐는지는 복원할 수 없다.

이 위에 보상 해킹(Reward Hacking)이 쌓인다. 정책 모델이 보상 모델의 허점을 발견하고 악용하는 현상이다. 보상 모델이 "긴 응답에 높은 점수를 주는" 패턴을 학습했다면, 정책 모델은 내용과 무관하게 응답을 늘려 점수를 높인다. 보상 모델이 "자신감 있는 어투"에 높은 점수를 주면, 틀린 내용도 단정적으로 서술하는 법을 배운다. Goodhart의 법칙 — "측정 지표가 목표가 되는 순간, 좋은 지표이기를 멈춘다" — 의 전형적 사례다.

보상 모델의 일반화 실패도 심각하다. 훈련 분포 안(in-distribution)에서는 인간 선호를 잘 예측하지만, 분포 밖(out-of-distribution)에서는 예측이 급격히 무너진다. 정책 최적화 과정에서 모델이 생성하는 출력은 점차 훈련 분포에서 벗어나므로, 보상 모델의 점수가 높아질수록 실제 품질과의 괴리가 커지는 역설이 발생한다. 나침반이 정확한 것은 알려진 지형에서뿐이다. 미지의 영역에 들어서면, 나침반의 바늘이 가리키는 방향을 신뢰할 수 없다.

이 세 가지 문제 — 정보 손실, 보상 해킹, 일반화 실패 — 는 서로 독립적이 아니다. 정보 손실이 보상 모델의 빈틈을 만들고, 그 빈틈이 해킹의 여지를 제공하며, 해킹된 정책이 분포 밖으로 이동하면 일반화가 무너진다. 세 문제가 순환적으로 강화되는 구조다.

최종 조립의 불안정 — 정책 최적화의 도전

3단계는 보상 모델이 매기는 점수를 실제로 최대화하는 단계다. 여기서의 실패는 눈에 가장 잘 보인다. 사용자가 마주하는 모델의 실제 행동이 결정되는 곳이기 때문이다.

정책 최적화 단계에서 가장 널리 쓰이는 기법은 PPO다. PPO는 보상 모델의 점수를 최대화하되, KL 발산 제약을 통해 정책 모델이 기본 모델(SFT 모델)에서 너무 멀리 벗어나지 않도록 제한한다. 이 제약이 없으면 모델은 보상 해킹으로 빠르게 붕괴하고, 제약이 너무 강하면 RLHF의 효과 자체가 미미해진다. 하지만 이 제약의 최적 강도를 정하는 것 자체가 어려운 문제다. 과제에 따라, 모델에 따라, 보상 모델의 품질에 따라 최적값이 달라진다.

모드 붕괴(Mode Collapse)도 관찰된다. 보상 모델이 높은 점수를 주는 소수의 패턴을 발견한 모델이, 그 패턴만 반복 생성하면서 다양성을 잃는 현상이다. "다양한 상황에 적절히 대응하는 모델" 대신 "몇 가지 템플릿을 반복하는 모델"이 만들어진다. 이 시리즈의 ETO(#10) 논문이 반복 횟수를 2~3회로 제한한 것도, 과도한 최적화가 다양성을 파괴한다는 동일한 관찰에서 비롯됐다.

탈옥(Jailbreaking)은 정렬의 견고성 문제를 드러낸다. 적대적 프롬프트로 안전 장치를 우회할 수 있다는 것은, RLHF가 만든 정렬이 모델의 근본적 성향을 바꾼 것이 아니라 표면적 행동 패턴을 덧씌운 것에 가깝다는 의미다. 바니시를 칠한 것이지, 나무를 바꾼 것이 아니다.

논문은 여기에 정렬 세금(Alignment Tax)이라는 개념도 추가한다. 안전성 훈련이 유용성을 감소시키는 비용이다. 유해한 출력을 거부하도록 훈련하면, 모델이 무해하지만 합법적인 요청까지 과도하게 거부하는 현상이 나타난다. 안전과 유용 사이의 긴장은 RLHF의 구조적 문제이며, 최적의 균형점은 과제와 맥락에 따라 달라진다. Constitutional AI(#21)가 이 문제를 "원칙의 계층"으로 풀려 한 것도, 단일 보상 함수로는 안전과 유용의 균형을 표현할 수 없다는 인식에서 출발한다.

파이프라인 전체의 열린 문제 — 분류와 심각도

논문이 식별한 열린 문제를 단계별로 정리하면 다음과 같다.

단계 열린 문제 핵심 위험 2026년 현재 상태
피드백 수집 평가자 간 비일관성 학습 목표 자체의 노이즈 부분 해결 (AI 피드백으로 대체)
피드백 수집 체계적 편향 (길이, 순서) 왜곡된 선호 학습 미해결 (편향 유형만 변화)
피드백 수집 전문성 한계 초인적 AI 감독 불가 악화 (모델 능력 상승)
피드백 수집 비용과 확장성 반복 수집의 비용 부분 해결 (RLAIF)
보상 모델 스칼라 보상의 정보 손실 다차원 가치의 환원 불가 부분 해결 (다중 보상 모델)
보상 모델 보상 해킹 / Goodharting 점수만 높고 품질 저하 부분 해결 (DPO로 우회)
보상 모델 OOD 일반화 실패 최적화할수록 괴리 증가 미해결
정책 최적화 KL 제약 균형 과소/과대 최적화 부분 해결 (DPO가 단순화)
정책 최적화 모드 붕괴 다양성 상실 미해결
정책 최적화 탈옥 취약성 정렬의 피상성 미해결 (공격도 진화)
정책 최적화 정렬 세금 안전성-유용성 상충 부분 해결 (세밀한 조정)
근본적 한계 검증 불가능성 진정한 정렬 여부 불명 미해결

표의 마지막 행, "검증 불가능성"이 가장 심각하다. RLHF가 모델을 진정으로 정렬했는지, 아니면 정렬된 척하는 법을 학습했는지를 구별할 방법이 현재로서는 없다. 모델이 평가 상황에서만 원칙을 따르고, 감독이 없을 때 다르게 행동할 가능성을 배제할 수 없다. 이것은 기술적 문제라기보다 인식론적 문제에 가깝다. 시험 볼 때만 모범생인 학생을, 시험 성적만으로는 가려낼 수 없는 것과 같다.

서베이의 시야 — 한계와 맥락

이 논문은 2023년 7월에 출판되었다. ChatGPT가 세상을 바꾼 지 8개월, GPT-4가 출시된 지 4개월 된 시점이다. RLHF의 성공이 가장 화려하게 빛나던 바로 그 순간에, 그 성공의 이면을 해부한 셈이다. 그 시점까지의 RLHF 연구를 체계적으로 정리한 것이지, 이후 등장한 해결책까지 다루지는 않는다. DPO가 본격적으로 확산되기 직전이었고, Claude 2가 막 출시된 시점이었다. 논문이 "열린 문제"로 분류한 것 중 일부는 이후 부분적으로 해소되었고, 일부는 형태를 바꿔 여전히 남아 있다.

또한 이 서베이는 문제의 분류에 집중하지, 각 문제의 해결책을 깊이 다루지는 않는다. 문제를 명명하는 것 자체가 가치 있는 작업이지만, 실무자가 "그래서 어떻게 해야 하는가"를 찾는다면 개별 문제에 대한 후속 연구를 참조해야 한다.

논문 자체도 인정하듯, RLHF의 대안으로 제시된 접근법들 — DPO, RLAIF, 과정 기반 보상 — 은 논문 시점에서 초기 단계였다. 이 대안들이 실제로 어떤 문제를 해결하고 어떤 새로운 문제를 낳았는지는, 논문의 범위를 넘어선다. 하지만 문제 목록이 있다는 것 자체가, 해결책을 평가하는 체크리스트가 된다. "이 새로운 기법은 표의 어떤 행을 해결하는가?" — 이 질문을 던질 수 있게 된 것이 서베이의 기여다.

2026년의 시선 — 3년간 무엇이 바뀌었는가

논문 출판 이후 3년간, RLHF 생태계는 크게 변했다. 논문이 "열린 문제"라고 명명한 것들 중 일부는 닫혔고, 일부는 형태를 바꿨고, 일부는 오히려 더 벌어졌다.

가장 눈에 띄는 변화는 DPO(Direct Preference Optimization)의 부상이다. DPO는 보상 모델을 아예 제거하고, 선호 데이터에서 직접 정책을 최적화한다. 수학적으로 보면, RLHF의 보상 모델 학습과 PPO 최적화를 하나의 단계로 합친 것이다. 이로써 3단계 파이프라인의 2단계(보상 모델 학습)가 통째로 사라진다. 보상 해킹, OOD 일반화 실패, 스칼라 보상의 정보 손실 — 보상 모델에 귀속되던 문제들이 구조적으로 회피된다. PPO의 불안정한 하이퍼파라미터 튜닝도 필요 없어진다. 이 시리즈의 10번 글에서 다룬 ETO가 DPO를 활용한 것이 한 사례다.

하지만 DPO가 만능은 아니다. 선호 데이터의 품질에 여전히 의존하고, 암묵적 보상 모델이 내부에 존재하므로 해킹 가능성이 완전히 사라지지는 않는다. 또한 DPO는 오프라인 학습이므로, 모델이 새로운 출력을 생성하고 그에 대한 피드백을 받는 온라인 반복 학습에서는 RLHF가 여전히 우위를 보이는 경우가 보고된다.

RLAIF(RL from AI Feedback)도 확산되었다. Constitutional AI(#21)에서 제안된 이 접근법은, 인간 평가자를 AI 평가자로 대체한다. 피드백 수집 단계의 비일관성, 비용, 확장성 문제를 완화하지만, "AI의 편향이 인간의 편향을 대체할 뿐"이라는 비판에서 자유롭지 않다. 편향의 종류가 바뀌었을 뿐, 편향 자체가 사라진 것은 아니다.

과정 기반 보상(Process-based Rewards)도 주목할 진전이다. 최종 결과에만 보상을 주는 대신 추론의 각 단계에 보상을 주어, 올바른 과정을 거쳐 올바른 답에 도달하도록 유도한다. ReAct(#2)의 사고-행동-관찰 사이클과 철학적으로 통하는 접근이다. 결과만 보지 않고 과정을 본다. 수학과 코딩처럼 중간 단계의 검증이 가능한 영역에서 특히 효과적이지만, "좋은 대화란 무엇인가"처럼 과정 자체를 정의하기 어려운 영역에서는 적용이 제한적이다.

멀티 에이전트 시스템에서의 정렬 문제도 새롭게 부상했다. 단일 모델의 RLHF를 넘어, 여러 에이전트가 협업하는 시스템 전체의 정렬을 어떻게 보장하는가? 개별 에이전트가 각각 정렬되어 있어도, 상호작용의 결과가 정렬될 것이라는 보장은 없다. 이 문제는 논문이 쓰인 시점에는 이론적이었지만, 2026년에는 실무적 과제가 되었다.

하지만 논문이 지적한 가장 근본적인 문제 — 초인적 AI를 인간이 감독할 수 있는가, 정렬을 검증할 수 있는가 — 는 2026년에도 미해결이다. 오히려 모델 능력이 상승하면서 문제가 더 선명해졌다. 인간의 코딩 능력을 넘어선 AI의 코드를, 인간이 어떻게 평가하는가? 수학 올림피아드 수준의 증명을 생성하는 모델의 출력을, 비수학자 평가자가 어떻게 비교하는가? 이 질문들에 대한 답은 아직 없다.

결국 3년간의 진전을 한마디로 요약하면, 파이프라인의 공학적 문제들은 상당 부분 완화되었지만, 정렬의 철학적 문제들은 그대로 남아 있다. DPO가 PPO를 대체하고, RLAIF가 인간 라벨러를 보완하고, 과정 기반 보상이 스칼라 보상을 확장했지만 — "우리가 AI에게 원하는 것을 정확히 표현할 수 있는가"라는 질문 앞에서는 모두 같은 한계에 부딪힌다.

마무리

한 문장으로 줄이면 이렇다: "RLHF는 AI를 인간에게 맞추는 가장 성공적인 기법이자, 인간이라는 기준 자체의 한계를 가장 선명하게 드러낸 기법이다."

이 서베이가 에이전트 연구에 시사하는 바는 명확하다. Reflexion의 자기 반성도, ETO의 대조 학습도, Constitutional AI의 원칙 기반 자기 검열도 — 모두 RLHF의 한계를 다른 방식으로 우회하려는 시도로 읽을 수 있다. 인간 피드백이라는 원재료의 불순물을 알아야, 그것을 정제하거나 대체하는 방법도 설계할 수 있다. 이 서베이는 불순물의 목록을 건넨 것이다. 그 목록을 들고, 에이전트 시스템의 전체 지도를 펼쳐보자.

다음 글에서는 에이전트 연구의 전체를 조망하는 서베이로 넘어간다. Autonomous Agents Survey — 에이전트 구축의 4가지 모듈을 해부하는 포괄적 분류 체계를 읽는다.


이 글은 "Agentic AI 논문 읽기" 시리즈의 스물두 번째 글입니다. 시리즈 전체 목록은 시리즈 페이지에서 확인할 수 있습니다.

Copyright ⓒ 2026 Theo All rights reserved.

Created by @Theo. Powered By @Vallista-land