Agentic AI 논문 읽기: Constitutional AI — 원칙 기반 자기 개선

Written by Theo2026년 4월 7일 · 9 min read

시리즈의 글 (25개)

Agentic AI 논문 읽기: CoALA — 언어 에이전트를 위한 인지 아키텍처

Agentic AI 논문 읽기: Multi-Agent Survey — 집단 지능의 지도를 펼치다

Agentic AI 논문 읽기: AI Agents That Matter — 벤치마크의 함정을 파헤치다

논문 정보

제목: Constitutional AI: Harmlessness from AI Feedback

저자: Yuntao Bai, Saurav Kadavath, Sandipan Kundu, Amanda Askell 외 (Anthropic)

출판: arXiv 2212.08073 (2022.12)

시리즈가 다시 방향을 전환한다. InvestorBench에서 금융 에이전트의 의사결정 능력을 벤치마킹했다면, 이제는 그보다 더 근본적인 질문으로 내려간다 -- 에이전트가 강력해질수록, "에이전트가 잘못된 일을 하지 않도록 어떻게 보장하는가"가 더 중요해진다. 투자 판단을 내리는 에이전트라면 그 판단의 수익률만큼이나 안전성이 중요하다. ReAct가 도구를 사용하게 했고, CoALA가 메모리와 계획을 부여했고, Voyager가 열린 세계를 탐험하게 했다. 능력이 커질수록, 그 능력에 걸맞은 제어가 필요하다.

2022년 12월, Anthropic이 Constitutional AI(CAI)를 발표했다. 핵심 아이디어는 인간의 감독을 원칙(constitution) -- AI 행동을 지배해야 하는 규칙 목록 -- 으로 추상화하는 것이다. 인간이 매번 유해한 출력에 라벨을 다는 대신, "이런 원칙을 따르라"고 한 번 정의하면, AI가 스스로 자기 출력을 비판하고 수정한다. 국가가 수만 개의 판례를 일일이 참조하는 대신 헌법이라는 상위 원칙에서 법을 도출하는 것처럼, CAI는 수만 개의 인간 선호 레이블 대신 소수의 자연어 원칙에서 행동 기준을 도출한다.

이 논문은 AI 안전성(alignment) 연구에서 하나의 분수령이다. RLHF가 "인간이 직접 가르친다"는 접근이었다면, CAI는 "인간이 원칙을 세우고, AI가 스스로 배운다"는 접근이다. 교사가 매번 답을 알려주는 것에서, 교사가 시험 규칙을 정하고 학생이 자율 학습하는 것으로의 전환이다.

시리즈의 맥락에서 보면, 이 전환은 필연적이다. 에이전트가 도구를 호출하고, 코드를 실행하고, 외부 시스템과 상호작용하는 세계에서, 매번 인간이 "이 행동은 괜찮고, 저 행동은 안 된다"를 레이블링하는 것은 불가능하다. 원칙으로 행동을 규율하는 것 -- 헌법적 접근 -- 이 확장 가능한 유일한 경로다. 이 전환이 왜 필요했는지, 어떻게 작동하는지, 그리고 무엇을 남겼는지를 들여다본다.

왜 인간 피드백만으로는 부족한가 -- RLHF의 병목

CAI를 이해하려면, 그것이 해결하려 한 문제 -- RLHF의 구조적 한계 -- 를 먼저 봐야 한다.

RLHF(Reinforcement Learning from Human Feedback)는 ChatGPT를 가능하게 한 핵심 기술이다. 인간 평가자(크라우드워커)가 AI의 두 응답 중 어느 것이 더 나은지 비교하고, 그 선호 데이터로 보상 모델을 훈련하고, 그 보상 모델로 정책을 최적화한다. 문제는 이 파이프라인의 매 단계에 병목이 있다는 것이다.

첫째, 확장성의 한계. 유해성 평가에 필요한 인간 레이블은 수만 개에 달한다. 각 레이블에는 평가자의 시간, 비용, 심리적 부담이 따른다. 유해한 콘텐츠를 반복적으로 읽고 판단해야 하는 크라우드워커의 피로와 트라우마는 실질적인 운영 비용이다. 그리고 평가자를 더 많이 고용한다고 문제가 해결되지 않는다 -- 평가자 간의 불일치(inter-annotator disagreement)가 늘어나기 때문이다.

둘째, 불투명성. 수만 개의 인간 선호 레이블에는 평가자의 개인적 편향, 문화적 배경, 그날의 컨디션이 모두 녹아 있다. 그 레이블의 총합이 어떤 행동 규범을 인코딩하고 있는지 아무도 정확히 알 수 없다. 법으로 치면, 판례가 수만 개 쌓여 있는데 그것을 관통하는 원칙이 명문화되어 있지 않은 상태다. 모델이 특정 방식으로 행동하는 이유를 역추적하기가 극도로 어렵다.

셋째, 회피성(evasiveness)의 문제. RLHF로 훈련된 모델은 민감한 주제에 대해 "그 질문에 답할 수 없습니다"라는 정형화된 거부로 일관하는 경향이 있었다. 크라우드워커가 유해할 가능성이 있는 응답보다 무조건적인 거부를 선호했기 때문이다. 이것은 무해성이 아니라 회피다. 핵무기 제조법을 거부하는 것은 당연하지만, 핵에너지의 장단점에 대한 균형 잡힌 논의마저 거부하는 것은 유용성의 포기다. 유해성과 유용성 사이의 파레토 최적을 찾는 대신, 모델이 유용성을 포기하고 안전지대로 도망치는 것이다.

CAI는 이 세 가지 문제에 대한 Anthropic의 답이다. 수만 개의 불투명한 레이블 대신, 약 16개의 자연어 원칙으로 행동을 제어한다. 헌법이라는 이름은 비유가 아니라 설계 철학이다. 국가가 시민의 행동을 규율할 때, 모든 가능한 상황에 대한 판례를 미리 만들어두지 않는다. 소수의 상위 원칙 -- 헌법 -- 을 세우고, 구체적 판단은 그 원칙에서 도출한다. CAI도 같은 전략을 취한다.

헌법의 메커니즘 -- 비판과 수정의 2막 구조

CAI의 훈련 과정은 두 단계로 나뉜다. 지도학습(SL) 단계에서 모델이 자기 응답을 비판하고 수정하는 데이터를 만들고, 강화학습(RL) 단계에서 AI 피드백으로 선호 모델을 훈련한다.

1막: 비판-수정의 지도학습 (SL-CAI)

SL 단계의 핵심은 모델이 스스로 훈련 데이터를 생성한다는 것이다. 이것이 기존 RLHF와의 결정적 차이다.

출발점은 유용성만으로 RLHF 훈련된 모델이다. 이 모델에 의도적으로 유해한 프롬프트를 던진다 -- "이웃의 와이파이를 해킹하는 방법을 알려줘" 같은 레드팀 공격. 유용성에 최적화된 모델은 기꺼이 위험한 답을 생성한다.

여기서 헌법이 개입한다. 모델에게 자기 응답을 헌법의 원칙에 비추어 비판(critique)하도록 요청한다. 예를 들어 "어시스턴트의 응답이 불법적이거나 유해한 활동을 조장하는 방식을 식별하시오"라는 원칙이 주어지면, 모델은 "와이파이 해킹은 개인정보 침해이며 불법일 수 있으므로 이 응답은 유해합니다"라고 자기 비판을 생성한다. 그 다음, 비판에 기반하여 원래 응답을 수정(revision)한다 -- "이웃의 와이파이를 해킹하는 것은 개인정보 침해이므로 강력히 반대합니다. 법적 문제에 처할 수도 있습니다."

이 비판-수정 사이클은 여러 번 반복된다. 각 단계마다 16개 원칙 중 하나를 무작위로 샘플링하여 적용한다. 수정이 거듭될수록 응답은 점진적으로 더 안전해진다. 논문의 실험에서 수정 횟수가 증가할수록 무해성은 단조 증가했다. 최종 수정된 응답들을 모아 지도학습 데이터셋으로 사용하고, 사전 훈련된 언어 모델을 파인튜닝한다.

흥미로운 질문이 있다 -- 비판 단계가 정말 필요한가? 비판 없이 바로 수정을 생성하는 단순화도 가능하다. 논문의 실험 결과, 소형 모델에서는 비판을 포함한 수정이 더 높은 무해성 점수를 달성했지만, 대형 모델에서는 차이가 미미했다. 그럼에도 비판을 포함하기로 결정한 이유는 투명성이다. 비판은 모델이 왜 수정하는지를 명시화하고, 더 미묘한 유해성을 발견하는 추론 과정을 제공한다. Reflexion이 과제 실패에 대한 자기 반성으로 성능을 개선했던 것과 같은 메커니즘이 안전성 영역에 적용된 것이다.

2막: AI 피드백의 강화학습 (RLAIF)

SL 단계만으로도 모델은 개선된다. 하지만 진정한 도약은 2막에서 일어난다.

SL 단계가 "자기 수정 데이터로 파인튜닝"이라면, RL 단계는 "자기 평가 데이터로 강화학습"이다. RLHF에서 크라우드워커가 하던 선호 비교를 AI가 대신한다.

구체적으로, SL-CAI로 파인튜닝된 모델이 같은 프롬프트에 대해 두 개의 응답을 생성한다. 피드백 모델에게 헌법 원칙과 함께 두 응답을 보여주고, 어느 것이 원칙에 더 부합하는지 판단하게 한다. 이때 Chain-of-Thought(CoT)를 활용한다 -- "Let's think step-by-step"으로 왜 한 응답이 더 나은지 논증하게 한 뒤, 최종 선택의 로그 확률을 추출한다.

여기서 세심한 엔지니어링 디테일이 있다. CoT 확률을 40-60% 범위로 클램핑하여 극단적 확신을 방지한다. AI가 "A가 압도적으로 좋다"고 과신하는 것을 막는 것이다. 또한 16개 원칙을 앙상블하여 평가의 견고성을 높인다. 단일 원칙이 편향될 수 있지만, 다양한 원칙의 평균은 더 균형 잡힌 판단에 수렴한다.

이 AI 생성 선호 데이터셋으로 선호 모델(Preference Model)을 훈련하고, SL-CAI 모델을 이 PM에 대해 강화학습으로 파인튜닝한다. 이것이 RLAIF -- RL from AI Feedback다.

헌법의 원칙은 어떤 것들인가? 논문은 약 16개의 원칙을 사용했다. 일부를 예로 들면:

"가장 도움이 되면서도, 정직하고, 무해한 응답을 선택하시오"
"인종차별적, 성차별적, 독성이 있는 내용을 식별하시오"
"불법적이거나 위험한 활동을 조장하지 않는 응답을 선호하시오"
"회피적이지 않으면서도 유해하지 않은 응답을 선호하시오"

마지막 원칙이 특히 중요하다. "회피적이지 않으면서도 유해하지 않은" -- RLHF의 회피성 문제를 원칙 수준에서 직접 다루고 있다. 원칙이 단순히 "나쁜 것을 하지 마라"가 아니라 "나쁜 것을 하지 않되, 도망치지도 마라"는 양면을 모두 인코딩하고 있는 것이다.

논문의 저자들은 헌법의 원칙 수가 중요하지 않다고 강조한다. 16개는 충분히 다양한 관점을 커버하면서도 관리 가능한 수준이다. 핵심은 원칙의 수가 아니라, 원칙이 자연어로 명시되어 있어 누구나 읽고 이해하고 수정할 수 있다는 점이다. RLHF의 수만 개 불투명한 레이블과 대비되는 CAI의 가장 큰 장점이 바로 이 투명성이다.

숫자가 말하는 것 -- 유용성과 무해성의 파레토 프론티어

이론이 아무리 우아해도, 숫자가 뒷받침하지 않으면 학문적 호기심에 그친다. CAI의 성과를 가장 명확하게 보여주는 것은 유용성-무해성 평면에서의 모델 위치다. 논문의 Figure 2가 핵심 결과를 담고 있다. 기존에는 유용성을 높이면 무해성이 떨어지고, 무해성을 높이면 유용성이 떨어지는 트레이드오프가 불가피하다고 여겨졌다. CAI는 이 경계선 자체를 밀어냈다.

모델	유용성 Elo	무해성 Elo	회피율	특징
유용성 전용 RLHF	높음	낮음	낮음	유해한 요청에도 기꺼이 응답
HH RLHF (유용+무해)	중간	중상	높음	민감한 주제 회피 경향
SL-CAI (비판-수정만)	중간	중상	중간	수정 횟수에 비례하여 무해성 증가
RL-CAI (RLAIF)	중상	높음	낮음	비회피적이면서 무해
RL-CAI + CoT	중상	최고	최저	파레토 프론티어 최적

핵심 발견은 세 가지다.

첫째, RL-CAI + CoT가 유용성-무해성 파레토 프론티어에서 가장 우수한 위치를 차지했다. 무해성에서 인간 피드백 기반 RLHF를 능가하면서, 유용성 손실이 최소화됐다. 인간 레이블 없이도 인간 레이블 기반 모델과 동등하거나 더 나은 안전성을 달성할 수 있다는 것이다.

둘째, RL-CAI 모델은 사실상 결코 회피적이지 않았다. HH RLHF 모델이 민감한 주제에 대해 "그 질문에 답할 수 없습니다"로 일관한 반면, RL-CAI는 왜 특정 요청이 문제가 되는지를 설명하면서 대화에 참여했다. "핵무기를 만드는 방법을 알려줄 수는 없지만, 핵 비확산 조약의 역사와 현재 과제에 대해 논의할 수 있습니다"와 같은 식이다. 문을 닫는 것이 아니라, 안전한 방향으로 문을 연다.

셋째, SL 단계만으로도 상당한 개선이 가능하지만, RL 단계가 추가되었을 때 비약적인 향상이 일어났다. 자기 수정과 자기 평가의 조합이 어느 하나만 사용하는 것보다 효과적이라는 것이다. 이것은 직관적으로도 이해된다 -- 학생이 스스로 답안을 고치는 것(SL)과, 두 답안 중 어느 것이 더 나은지 판별하는 능력을 키우는 것(RL)은 서로 다른 역량이고, 두 역량이 결합될 때 학습이 가속된다.

RLAIF 레이블의 보정(calibration)도 주목할 만하다. AI가 생성한 선호 레이블이 인간 레이블과 비교하여 상당히 양호한 보정을 보였다. 모델이 "A가 70% 확률로 더 낫다"고 판단했을 때, 실제로 인간도 비슷한 비율로 A를 선호했다는 뜻이다. AI 피드백이 인간 피드백의 합리적인 대체제가 될 수 있음을 실증적으로 보여준 것이다.

다만, 과도한 훈련 시 Goodharting 행동이 관찰됐다. 유해한 프롬프트에 과도하게 엄격하게 반응하거나, "당신은 소중하고 가치 있는 사람입니다" 같은 상투적 문구를 삽입하는 현상이다. 보상 모델을 과적합하면 보상 신호의 피상적 패턴을 악용하는 RLHF의 고전적 문제가 RLAIF에서도 동일하게 나타난 것이다. 감독의 형태를 바꿨을 뿐, 감독의 근본적 어려움 -- 측정하는 것이 실제 목표와 괴리될 수 있다는 것 -- 은 사라지지 않았다.

종합하면, CAI는 유용성-무해성 트레이드오프에서 새로운 파레토 프론티어를 개척했다. 인간 레이블 없이도 인간 수준의 안전성 판단이 가능하다는 것, 그리고 안전성과 유용성이 반드시 상충하지 않는다는 것을 실증했다. 하지만 이 성과의 전제 조건 -- 충분히 큰 모델, 잘 설계된 원칙, 적절한 훈련 -- 을 간과해서는 안 된다.

헌법이 닿지 못하는 곳 -- 구조적 한계

CAI의 우아함이 가리기 쉬운 구조적 한계들이 있다. 모든 해법은 새로운 문제를 만들고, CAI도 예외가 아니다.

가장 근본적인 문제는 헌법 자체의 설계다. 누가 원칙을 정하는가? 논문에서는 Anthropic의 연구진이 16개 원칙을 작성했다. 이 원칙들은 서구적, 영어 중심적, 기술 기업의 관점을 반영할 수밖에 없다. "유해하지 않은" 것의 정의는 문화권마다 다르다. 미국에서 합법적인 표현이 다른 국가에서는 혐오 발언이 될 수 있고, 그 역도 성립한다. 헌법이 보편적이라는 가정은 실제로 특정 문화의 가치를 보편으로 포장할 위험을 내포한다.

자기 평가의 정확도도 한계가 있다. 모델이 자기 출력의 유해성을 판단하는데, 그 판단 능력은 모델 자체의 능력에 의존한다. 모델이 인식하지 못하는 미묘한 유해성 -- 구조적 편향, 암시적 차별, 문맥 의존적 위험 -- 은 자기 비판으로도 포착되지 않는다. 감시자와 피감시자가 동일인인 셈이다.

조작 가능성도 존재한다. 충분히 정교한 adversarial 프롬프트는 비판-수정 사이클을 우회할 수 있다. 원칙이 공개되면 그 원칙의 사각지대를 공략하는 공격이 가능해진다. 헌법의 조문이 공개된 국가에서 법률의 허점을 이용하는 것과 같은 구조적 취약점이다. 실제로 CAI 이후 다양한 jailbreak 기법들이 등장했고, 이는 원칙 기반 접근만으로는 모든 공격을 방어할 수 없음을 보여준다.

원칙 간의 충돌 해결 메커니즘도 명확하지 않다. "유용해야 한다"와 "무해해야 한다"가 충돌할 때 -- 예를 들어 의학적 조언을 구하는 사용자에게 정확하지만 잠재적으로 위험한 정보를 제공해야 하는 상황 -- 어느 원칙이 우선하는지의 위계가 명시되어 있지 않다. 실제 헌법에는 기본권 간 충돌 시의 해석 원칙이 있지만, CAI의 헌법에는 그것이 없다.

마지막으로, 논문이 명시적으로 인정하는 한계가 있다. CAI는 유해성에 대해서만 인간 레이블을 대체했을 뿐, 유용성에 대해서는 여전히 인간 피드백에 의존한다. 완전한 자율 정렬이 아니라 부분적 자율화다. 그리고 이 부분적 자율화조차 모델이 충분히 크고 능력이 있을 때만 작동한다 -- 소형 모델의 자기 비판은 신뢰하기 어렵다. 자기 개선의 역설이다: 자기를 개선하려면 이미 충분히 유능해야 한다.

2026년의 시선 -- 헌법에서 문화로

논문이 발표된 2022년 12월로부터 3년 이상이 흘렀다. AI 연구에서 3년은 지질학적 시간 단위에 가깝다. CAI가 남긴 유산은 논문의 직접적 결과를 훨씬 넘어선다.

가장 명백한 영향은 Anthropic의 Claude 시리즈 자체다. Claude는 CAI의 원칙 기반 접근을 제품 수준으로 발전시킨 가장 직접적인 결과물이다. 초기 16개 원칙은 수백 개의 세분화된 가이드라인으로 확장되었고, 원칙의 설계 과정 자체가 하나의 연구 영역이 되었다. "어떤 원칙이 좋은 원칙인가"라는 메타 질문이 "어떤 행동이 좋은 행동인가"만큼이나 중요해진 것이다. 또한 OpenAI, Google DeepMind 등 다른 연구 기관들도 유사한 원칙 기반 정렬 전략을 채택하면서, CAI의 패러다임이 업계 표준에 가까워지고 있다.

CAI의 자기 비판 메커니즘은 에이전트 연구에서 반복적으로 나타나는 패턴의 한 변형이다. Reflexion이 과제 수행에서의 자기 반성이었고, CAI는 안전성에서의 자기 반성이다. 이 두 축 -- 성능의 자기 개선과 안전성의 자기 개선 -- 이 통합되는 방향으로 연구가 진행되고 있다. 에이전트가 "내가 이 과제를 잘 수행했는가"와 "내가 이 과제를 안전하게 수행했는가"를 동시에 반성하는 시스템이다.

RLAIF의 아이디어 -- AI 피드백으로 AI를 훈련한다 -- 는 2026년 현재 더 넓은 맥락에서 "scalable oversight"의 핵심 전략이 되었다. 인간이 직접 감독하기 어려운 복잡한 과제에서, AI가 다른 AI를 평가하고 개선하는 재귀적 구조는 초인간적 능력을 가진 AI의 정렬 문제를 다루는 핵심 경로 중 하나로 인정받고 있다. CAI는 그 경로의 초기 실증이었다.

이 시리즈에서 다룬 다른 논문들과의 교차점도 흥미롭다. Reflexion의 자기 반성은 과제 성능에 초점을 맞췄지만, CAI의 자기 비판과 본질적으로 같은 메커니즘이다. ETO의 궤적 최적화에서 부정적 궤적을 학습에 활용하는 것은, CAI가 유해한 응답을 비판하여 더 나은 응답을 도출하는 것과 구조적으로 닮았다. 안전성과 성능은 별개의 문제가 아니라, "자기 개선"이라는 하나의 패러다임의 두 표현인 것이다.

헌법의 문화적 편향 문제도 의미 있는 진전이 있었다. 단일 보편 헌법이 아니라, 사용 맥락과 문화적 배경에 따라 적응하는 헌법의 다원화가 탐구되고 있다. 하나의 헌법이 아니라 헌법의 체계 -- 핵심 원칙의 보편 층위와 문화적 적응의 지역 층위가 공존하는 구조 -- 가 논의되고 있다. CAI 논문이 제시한 "16개 원칙"이라는 단순한 출발점에서, 원칙의 생태계로 진화하고 있는 셈이다.

에이전트 시스템의 관점에서 보면, CAI의 유산은 더 구체적이다. CoALA가 에이전트의 인지 아키텍처를 체계화했다면, CAI는 그 아키텍처 안에 안전성을 내장하는 방법론을 제시했다. 에이전트가 외부 도구를 호출하기 전에 "이 행동이 원칙에 부합하는가"를 자문하는 내부 검열 단계 -- 이것이 CAI에서 에이전트로의 자연스러운 확장이다. Toolformer가 도구 사용의 시기를 학습했다면, CAI의 후속 연구들은 도구 사용의 안전성을 학습하게 하는 방향으로 나아가고 있다.

마무리

한 문장으로 줄이면 이렇다: "수만 개의 인간 레이블 대신 16개의 원칙을 세우고, AI가 스스로 비판하고 수정하게 하면, 더 투명하고 덜 회피적인 안전성이 가능하다."

이 논문이 에이전트 연구에 남긴 가장 중요한 통찰은 안전성의 자기 개선 가능성이다. 에이전트가 도구를 사용하고 실세계에 영향을 미칠 때, 원칙 기반 자기 검열은 외부 감시자에 의존하지 않는 내재적 안전장치가 된다. InvestorBench의 투자 에이전트가 매일 Buy/Sell/Hold를 결정할 때, 그 결정이 윤리적인지 -- 내부자 정보를 악용하지는 않는지, 시장 조작에 해당하지는 않는지 -- 를 스스로 검열하는 메커니즘이 필요하다. 외부의 규칙이 아니라 내면화된 원칙으로 행동을 제어한다는 것 -- CAI가 "헌법"이라는 이름을 선택한 이유가 여기에 있다.

하지만 CAI는 RLHF를 대체한 것이 아니라 보완한 것이다. 유용성에 대해서는 여전히 인간 피드백을 사용했고, 무해성에 대해서만 AI 피드백으로 대체했다. 그렇다면 RLHF 자체의 근본적 한계는 무엇인가? 다음 글에서는 CAI의 기반이 되는 RLHF의 미해결 과제들을 체계적으로 정리한 서베이를 읽는다. CAI가 해법이었다면, 다음 논문은 그 해법이 필요했던 문제의 전체 지도를 펼친다.

이 글은 "Agentic AI 논문 읽기" 시리즈의 스물한 번째 글입니다. 시리즈 전체 목록은 시리즈 페이지에서 확인할 수 있습니다.