시리즈의 글 (25개)
- Agentic AI 논문 읽기: CoALA — 언어 에이전트를 위한 인지 아키텍처
- Agentic AI 논문 읽기: ReAct — 생각과 행동을 엮은 최초의 패턴
- Agentic AI 논문 읽기: CoT — 생각의 사슬이 추론을 깨운 순간
- Agentic AI 논문 읽기: Toolformer — 언어 모델이 스스로 도구를 잡은 순간
- Agentic AI 논문 읽기: AutoGen — 대화로 엮는 다중 에이전트 시스템
- Agentic AI 논문 읽기: MetaGPT — SOP로 설계한 다중 에이전트 조직
- Agentic AI 논문 읽기: Multi-Agent Survey — 집단 지능의 지도를 펼치다
- Agentic AI 논문 읽기: Reflexion — 실패를 언어로 되감는 에이전트
- Agentic AI 논문 읽기: LATS — 트리 탐색으로 추론과 행동을 통합하다
- Agentic AI 논문 읽기: ETO — 실패 궤적으로 에이전트를 훈련하다
- Agentic AI 논문 읽기: AI Agents That Matter — 벤치마크의 함정을 파헤치다
- Agentic AI 논문 읽기: Paradigms — 도구 사용·계획·피드백의 삼각 구도
- Agentic AI 논문 읽기: Halo — DAG로 에이전트 워크플로우를 최적화하다
- Agentic AI 논문 읽기: Tool Use Evolution — 단일 도구에서 다중 오케스트레이션까지
- Agentic AI 논문 읽기: BloombergGPT — 금융 특화 대규모 언어 모델의 탄생
- Agentic AI 논문 읽기: FinGPT — 오픈소스 금융 LLM 프레임워크
- Agentic AI 논문 읽기: ₩on — 한국어 금융 NLP의 첫 번째 벤치마크
- Agentic AI 논문 읽기: DocLLM — 레이아웃 인식 문서 이해 모델
- Agentic AI 논문 읽기: FINCH — 스프레드시트 중심 재무 벤치마크
- Agentic AI 논문 읽기: InvestorBench — 금융 의사결정 에이전트 벤치마크
- Agentic AI 논문 읽기: Constitutional AI — 원칙 기반 자기 개선
- Agentic AI 논문 읽기: RLHF의 한계 — 인간 피드백 강화학습의 미해결 과제
- Agentic AI 논문 읽기: Autonomous Agents Survey — 자율 에이전트 구축의 해부도
- Agentic AI 논문 읽기: Rise and Potential — 뇌·지각·행동으로 본 에이전트 전망
- Agentic AI 논문 읽기: A-MEM — 제텔카스텐에서 영감받은 에이전트 기억 시스템
논문 정보
- 제목: Trial and Error: Exploration-Based Trajectory Optimization for LLM Agents
- 저자: Yifan Song, Da Yin, Xiang Yue, Jie Huang, Sujian Li, Bill Yuchen Lin (Allen Institute for AI, Peking University, UCLA, Ohio State University, UIUC)
- 출판: ACL 2024 Main Conference
- arXiv: 2403.02502
앞선 두 글에서 에이전트가 실패에서 학습하는 두 가지 방식을 읽었다. Reflexion은 실패를 자연어로 반성하여 다음 시도의 컨텍스트에 추가했다. LATS는 실패 지점에서 트리를 분기하여 다른 경로를 탐색했다. 둘 다 가중치를 건드리지 않는다. LLM의 파라미터는 그대로 둔 채, 프롬프트나 탐색 전략으로 행동을 개선한다.
하지만 이 접근에는 근본적 제약이 있다. 아무리 정교한 프롬프트를 써도, 모델 자체의 능력 한계를 넘을 수 없다. 7B 파라미터의 오픈소스 모델은 GPT-4만큼의 추론 능력이 없고, 프롬프트 엔지니어링만으로 그 간극을 메우기 어렵다. 모델의 능력 자체를 올리려면, 결국 가중치를 업데이트해야 한다.
2024년 3월, Allen Institute for AI와 Peking University 등의 공동 연구팀이 이 문제에 대한 답을 발표했다. ETO — Exploration-based Trajectory Optimization. 제목이 곧 방법론이다. 탐색(Exploration)으로 실패 궤적을 수집하고, 그 궤적을 성공 궤적과 대조하여 정책을 최적화(Optimization)한다. Reflexion과 LATS가 "실패에서 배우되 모델은 바꾸지 않는다"였다면, ETO는 "실패에서 배워서 모델을 바꾼다"이다.
행동 클로닝의 한계 — 성공만 보고 배우는 것의 문제
오픈소스 LLM으로 에이전트를 만드는 표준 방법은 행동 클로닝(Behavioral Cloning)이다. GPT-4 같은 강력한 모델이 과제를 수행하는 모범 궤적을 수집하고, 작은 모델이 그 궤적을 따라하도록 지도 파인튜닝(SFT)한다. 사범대학에서 모범 수업을 관찰하고 따라하는 교생실습과 비슷하다.
이 방법의 문제는 모범만 보여준다는 것이다. 학생에게 "이렇게 해야 한다"만 가르치고, "이렇게 하면 안 된다"는 가르치지 않는다. 결과적으로 에이전트는 전문가가 선택하지 않은 행동 — 잘못된 도구 호출, 비효율적인 탐색 경로, 논리적 오류 — 에 대한 피드백을 받지 못한다. 본 적 없는 상황에서 실수를 반복한다.
인간의 학습은 다르다. 성공적 시연을 관찰하는 것뿐 아니라, 직접 시행착오를 겪으며 "무엇이 잘못되었는지"를 체험한다. ETO는 이 직관을 에이전트 학습에 가져온다.
ETO의 구조 — 탐색과 학습의 반복
ETO의 파이프라인은 두 단계의 반복이다.
1단계: 행동 클로닝으로 기본 에이전트 구축
먼저 전문가 궤적에 대해 SFT를 수행하여 기본 에이전트를 만든다. 이 에이전트는 아직 초보다. 모범 답안을 외웠지만 응용력이 부족한 학생과 같다.
2단계: 탐색-학습 반복 루프
여기서 ETO의 핵심이 시작된다.
탐색 단계: 기본 에이전트가 환경에서 과제를 수행한다. 성공할 수도 있고 실패할 수도 있다. 환경이 보상(0~1)을 반환한다. 에이전트가 생성한 궤적과, 같은 과제에 대한 전문가 궤적을 비교하여 "실패-성공" 쌍을 구성한다. 둘 다 성공하면 그 쌍은 버린다 — 둘 다 잘한 경우에는 대조할 정보가 없기 때문이다.
학습 단계: 수집된 실패-성공 쌍으로 DPO(Direct Preference Optimization) 손실을 사용하여 모델을 업데이트한다. 성공 궤적의 확률은 높이고, 실패 궤적의 확률은 낮추되, 기본 에이전트의 능력이 과도하게 변하지 않도록 KL 제약을 건다.
이 루프를 반복한다. 업데이트된 에이전트가 다시 환경을 탐색하고, 새로운 실패를 수집하고, 다시 학습한다.
DPO — 왜 PPO가 아닌가
에이전트를 환경에서 학습시키는 가장 직관적인 방법은 온라인 강화학습(PPO 등)이다. 하지만 논문은 PPO를 명시적으로 기각한다. 실험에서 PPO는 WebShop에서만 미미한 개선을 보였고, ALFWorld 같은 이진 보상 환경에서는 성능이 처참하게 떨어졌다(SFT 60.0 → PPO 22.1). 온라인 RL의 고유한 불안정성이 LLM 에이전트 학습에서 실질적 장벽이라는 것이다.
DPO는 이 문제를 우회한다. 온라인으로 환경과 상호작용하면서 정책을 업데이트하는 대신, 미리 수집한 궤적 쌍에서 오프라인으로 학습한다. 수학적으로는 RL 목적 함수를 재구성한 것이므로 최종 보상을 직접 최대화하면서도 RL 최적화의 불안정성을 피한다.
궤적 수준 대조의 중요성
ETO에서 흥미로운 설계 결정은 대조의 단위다. 두 가지 선택지가 있다.
궤적 수준 대조: 전체 궤적(시작부터 끝까지)을 단위로 비교한다. "이 궤적은 성공, 이 궤적은 실패."
단계 수준 대조: 개별 행동을 단위로 비교한다. "이 단계에서 이 행동은 좋고, 이 행동은 나쁘다."
직관적으로 단계 수준이 더 세밀한 정보를 제공할 것 같지만, 실험 결과는 정반대였다. 궤적 수준 대조가 67.4점인 반면, 단계 수준 대조는 8.3점으로 붕괴했다. 원인은 보상 할당(credit assignment) 문제다. 에이전트가 최종적으로 실패했더라도, 초반 행동들은 합리적이었을 수 있다. 최종 보상만으로 개별 행동의 품질을 정확히 판단하기 어렵다.
이 관찰은 Reflexion의 제거 실험과도 공명한다. Reflexion에서도 "무엇이 잘못되었는지" 정확히 짚지 못하면 오히려 성능이 떨어졌다. 정확한 피드백 없이 세밀한 수정을 시도하면, 잘못된 방향으로 학습한다.
실험 결과 — 세 가지 벤치마크에서의 검증
논문은 세 가지 벤치마크에서 Llama-2-7B-Chat 기반으로 실험했다. 2024년 초 기준의 결과다.
| 벤치마크 | SFT | PPO | GPT-4 | ETO |
|---|---|---|---|---|
| WebShop | 63.1 | 64.2 | 63.2 | 67.4 |
| ScienceWorld (Seen) | 67.4 | 59.4 | 64.8 | 73.8 |
| ScienceWorld (Unseen) | 53.0 | 51.7 | 64.4 | 65.0 |
| ALFWorld (Seen) | 60.0 | 22.1 | 42.9 | 68.6 |
| ALFWorld (Unseen) | 67.2 | 29.1 | 38.1 | 72.4 |
세 가지 관찰이 두드러진다.
첫째, ETO가 모든 벤치마크에서 모든 기준선을 능가한다. WebShop에서 7B 모델이 GPT-4를 넘어선 것(67.4 vs 63.2)은 상징적이다. 물론 특정 과제에서의 결과이고, GPT-4가 WebShop에 최적화되지 않은 상태임을 감안해야 한다.
둘째, OOD(Out-of-Distribution) 일반화에서 ETO가 특히 강력하다. ScienceWorld-Unseen에서 SFT 대비 +12%p, ALFWorld-Unseen에서 +5.2%p. 실패에서 학습한 에이전트가 본 적 없는 환경에서도 더 잘 대처한다. 모범 답안만 외운 학생보다, 시행착오를 겪은 학생이 새로운 문제에 더 유연하게 대응하는 것과 같은 원리다.
셋째, PPO의 실패가 극적이다. ALFWorld에서 SFT 60%에서 PPO 22%로 급락한다. 이진 보상(성공 또는 실패) 환경에서 온라인 RL의 불안정성이 여실히 드러난다.
반복의 수확체감 — 3회가 한계
반복 실험에서 중요한 패턴이 관찰된다. 1~2회 반복에서 큰 성능 향상이 일어나지만, 3회 이상부터는 과적합으로 성능이 정체되거나 오히려 떨어진다. 원인은 대조 데이터의 다양성 감소다. 전문가 궤적 세트는 고정되어 있고, 에이전트가 점점 나아지면서 새로운 실패의 유형이 줄어든다. 같은 종류의 대조 데이터로 반복 학습하면 과적합이 발생한다.
ALFWorld처럼 이진 보상 환경에서는 1회 반복만 효과적이다. "성공 아니면 실패"라는 거친 피드백으로는 세밀한 반복 학습이 어렵다.
Reflexion, LATS, ETO — 세 가지 학습 방식의 비교
시리즈에서 읽은 세 논문은 에이전트 학습의 세 가지 축을 보여준다.
| 차원 | Reflexion | LATS | ETO |
|---|---|---|---|
| 학습 방식 | 자연어 반성 | 트리 탐색 | 대조 학습 |
| 파라미터 변경 | 없음 | 없음 | 있음 (DPO) |
| 적용 대상 | 폐쇄형 모델 (GPT-4) | 폐쇄형 모델 | 오픈소스 모델 |
| 비용 | 추론 비용 | 높은 추론 비용 | 훈련 비용 |
| 일반화 | 컨텍스트 의존 | 컨텍스트 의존 | 모델에 내재화 |
Reflexion과 LATS는 추론 시간(inference time)에 작동한다. 모델을 바꾸지 않고, 매번 프롬프트와 탐색으로 행동을 개선한다. 장점은 GPT-4 같은 폐쇄형 모델에도 적용할 수 있다는 것이고, 단점은 학습이 모델에 내재화되지 않아 매번 비용이 발생한다는 것이다.
ETO는 훈련 시간(training time)에 작동한다. 모델의 가중치를 바꿔서, 한 번 학습하면 이후에는 추가 비용 없이 개선된 행동을 한다. 장점은 학습이 영구적이라는 것이고, 단점은 오픈소스 모델에만 적용할 수 있고 훈련 비용이 든다는 것이다.
세 접근이 상호 배타적이지 않다는 점도 중요하다. ETO로 기본 능력을 올린 모델에 Reflexion의 자기 반성을 추가하거나, LATS의 트리 탐색을 적용하는 것이 가능하다.
2026년의 시선 — 대조 학습의 현재
논문이 발표된 2024년 3월로부터 2년이 지났다.
실현된 것: DPO 기반 대조 학습은 LLM 학습의 표준 도구가 되었다. RLHF의 복잡한 파이프라인(보상 모델 학습 → PPO 최적화) 대신, DPO가 더 안정적이고 간단한 대안으로 널리 채택되었다. ETO가 에이전트 학습에서 보여준 DPO의 효과는, 이후 수많은 후속 연구에서 확인되었다.
확장된 것: 과적합 문제는 여전히 존재하지만, 더 다양한 환경과 더 큰 데이터셋으로 완화되고 있다. Self-play 방식 — 전문가 궤적 없이 에이전트가 스스로 탐색하고 학습하는 — 이 더 정교해졌다.
여전히 열린 것: 단계 수준의 세밀한 보상 할당(credit assignment)은 여전히 미해결 과제다. 궤적 전체가 아니라 개별 행동의 품질을 정확히 판단할 수 있다면, 학습 효율이 크게 올라갈 것이다. 또한 범용 에이전트(하나의 모델이 여러 과제를 수행)를 위한 다중 과제 학습은 논문이 명시적으로 향후 연구로 남긴 영역이다.
CoALA 좌표계 위의 ETO
| CoALA 축 | ETO의 위치 |
|---|---|
| 기억 | 실패-성공 궤적 쌍이 학습 데이터로 활용 (외부 메모리) |
| 행동 | ReAct 형식의 환경 상호작용 |
| 판단 | DPO를 통해 판단 능력이 모델 가중치에 내재화 |
Reflexion이 판단에 시간 축을, LATS가 공간 축을 추가했다면, ETO는 판단의 영구화를 달성한다. 반성이 프롬프트에 남는 것이 아니라, 모델의 가중치 속에 새겨진다. 다음 대화에서도, 다음 세션에서도, 한 번 배운 것을 잊지 않는다.
마무리 — 세 가지 학습의 스펙트럼
Reflexion, LATS, ETO. 세 논문을 연속으로 읽으면서, 에이전트가 실패에서 학습하는 스펙트럼이 그려졌다. 반성으로 배우고(Reflexion), 탐색으로 배우고(LATS), 훈련으로 배운다(ETO). 어느 것이 "최선"이라 단정할 수 없다 — 폐쇄형 모델이냐 오픈소스냐, 추론 비용이냐 훈련 비용이냐, 즉시 적응이냐 영구 학습이냐에 따라 답이 달라진다.
다음 글에서는 한 발 물러서서, 이 모든 에이전트 연구가 실제로 의미 있는지 묻는 논문을 읽는다. AI Agents That Matter — 에이전트 벤치마크의 함정을 파헤치는 비판적 분석이다.
이 글은 "Agentic AI 논문 읽기" 시리즈의 열 번째 글입니다. 시리즈 전체 목록은 시리즈 페이지에서 확인할 수 있습니다.