Agentic AI 논문 읽기: Paradigms — 도구 사용·계획·피드백의 삼각 구도

Written by Theo2026년 4월 4일 · 3 min read

시리즈의 글 (25개)

Agentic AI 논문 읽기: CoALA — 언어 에이전트를 위한 인지 아키텍처

Agentic AI 논문 읽기: Multi-Agent Survey — 집단 지능의 지도를 펼치다

Agentic AI 논문 읽기: AI Agents That Matter — 벤치마크의 함정을 파헤치다

논문 정보

제목: A Review of Prominent Paradigms for LLM-Based Agents: Tool Use (Including RAG), Planning, and Feedback Learning

저자: Xinzhe Li (Deakin University)

출판: arXiv 2406.05804 (2024.06, revised 2024.11)

시리즈에서 지금까지 읽은 논문들을 떠올려보면, 각각이 에이전트의 다른 능력을 다뤘다. CoT와 ReAct는 추론과 행동을, Toolformer는 도구 사용을, Reflexion과 LATS는 피드백과 계획을, ETO는 훈련을 통한 학습을 다뤘다. 각각의 논문 안에서는 논리가 선명했지만, 논문과 논문 사이의 관계 — 어떤 논문이 어떤 논문의 어디를 확장하고 어디를 대체하는지 — 는 독자가 스스로 정리해야 했다.

2024년 6월, Deakin University의 연구자가 이 정리를 시도했다. 에이전트 연구를 도구 사용, 계획, 피드백 학습이라는 세 패러다임으로 분류하고, 패러다임을 가로지르는 통합 프레임워크를 제안한다. Multi-Agent Survey가 다중 에이전트의 지형을 그렸다면, 이 논문은 단일 에이전트의 워크플로우 지형을 그린다.

세 가지 역할 — LLM이 맡을 수 있는 직무

논문의 핵심 기여는 LLM이 에이전트 시스템에서 맡을 수 있는 역할을 세 가지로 추상화한 것이다. 논문은 이를 LLM 프로파일 역할(LMPR)이라 부른다.

정책 모델(Policy): 무엇을 할지 결정한다. 두 가지 하위 유형이 있다. Actor는 현재 상태에서 다음 행동을 직접 생성한다 — ReAct가 대표적이다. Planner는 행동 시퀀스, 즉 계획을 한 번에 생성한다 — Plan-and-Solve가 대표적이다.

평가자(Evaluator): 행동이나 상태의 품질을 판단한다. ToT에서 각 사고 단계의 가치를 평가하는 것, Reflexion에서 자기 반성을 생성하는 것이 모두 이 역할이다.

동적 모델(Dynamic Model): 행동의 결과를 예측한다. 세계 모델이라고도 부른다. RAP에서 행동을 실제로 실행하지 않고 다음 상태를 시뮬레이션하는 것이 이 역할이다.

이 세 역할의 가치는 조합에 있다. 시리즈에서 읽어온 논문들이 세 역할의 서로 다른 조합이라는 것을 보여준다.

프레임워크	정책 모델	평가자	동적 모델
CoT	O (actor)	X	X
ReAct	O (actor)	X	X
ToT	O (planner)	O	X
Reflexion	O (actor)	O	X
LATS	O (actor)	O	O

CoT와 ReAct는 정책 모델만 사용한다. ToT와 Reflexion은 평가자를 추가한다. LATS는 세 역할을 모두 동원한다. 에이전트의 복잡성은 역할의 수가 아니라, 역할 간의 상호작용 방식에서 나온다.

네 가지 워크플로우 — 에이전트가 일하는 방식

세 역할이 조합되어 네 가지 범용 워크플로우를 만든다.

기본 워크플로우: 정책 모델만으로 환경과 상호작용한다. CoT, ReAct, Plan-and-Solve가 여기에 속한다. 가장 단순하지만, 긴 시간 범위의 과제에서는 계획이 초반에 고정되어 중간 수정이 어렵다는 한계가 있다.

도구 사용 워크플로우: 정책 모델이 외부 도구를 호출한다. 논문은 이를 네 가지 하위 유형으로 분류한다. RAG 스타일은 검색 메커니즘이 수동적으로 정보를 제공하고, 수동적 검증은 별도 도구가 출력을 검증하고, 자율적 도구 사용은 LLM이 스스로 도구 호출 시점과 종류를 결정하고, 자율적 검증은 평가자가 도구 검증 필요 여부를 판단한다.

자율적 도구 사용에서 도구를 호출하는 트리거 방식이 흥미롭다. In-Generation 트리거는 생성 중에 특수 토큰을 감지하면 일시 정지하고 도구를 호출한다 — Toolformer의 방식이다. Reasoning-Acting 전략은 추론과 행동을 교차하면서 필요할 때 도구를 호출한다 — ReAct의 방식이다. Confidence 기반은 생성된 토큰의 신뢰도가 낮으면 도구로 보완한다.

탐색 워크플로우: 여러 가능한 경로를 체계적으로 탐색한다. 순회/휴리스틱 방식은 ToT처럼 트리 구조에서 DFS/BFS로 탐색하고, 평가자가 고정된 가치 추정을 제공한다. MCTS 방식은 세 역할이 모두 협력한다 — LATS가 대표적이다. 두 방식의 핵심 차이는 탐색 알고리즘의 정교함이다. 순회/휴리스틱은 정적 가치 추정에 의존하지만, MCTS는 누적 통계로 가치를 동적으로 업데이트한다.

피드백 학습 워크플로우: 과거 시도에서 얻은 피드백으로 행동을 개선한다. 피드백 소스에 따라 세 가지로 나뉜다 — 평가자만(Self-Refine, Reflexion), 평가자 + 환경(Reflexion with environment), 인간(CRITIC with human).

교차 패러다임 비교 — 같은 개념, 다른 맥락

논문의 가장 유용한 부분은 패러다임을 가로지르는 비교다.

같은 역할이 패러다임에 따라 다르게 사용된다. 정책 모델의 Actor 역할을 예로 들면, 기본 워크플로우에서는 실행 가능한 행동을 생성하고, 탐색 워크플로우에서는 계획 알고리즘에 입력할 후보 행동을 생성하고, 도구 사용 워크플로우에서는 도구 호출 행동을 생성한다. 같은 LLM이 같은 역할을 맡지만, 출력의 성격이 완전히 다르다.

평가자의 경우는 더 극적이다. 피드백 학습에서 평가자는 전체 시도를 되돌아보며 자유 형식의 반성 텍스트를 생성한다. 탐색에서 평가자는 트리의 각 노드에 스칼라 가치를 매겨 탐색을 안내한다. 같은 "평가"라는 기능이, 한쪽에서는 에세이를 쓰고 다른 쪽에서는 점수를 매기는 것이다.

계획 생성도 패러다임에 따라 달라진다. 기본 워크플로우에서 계획은 탐욕적으로 한 번에 생성되고 이후 수정되지 않는다. 탐색 워크플로우에서 계획은 여러 후보를 탐색하며 백트래킹을 지원한다. MCTS에서는 루트 노드의 행동만 실제로 실행하고, 나머지는 시뮬레이션 후 폐기하여 지속적으로 재계획한다.

시리즈에서 읽은 논문들의 위치

이 분류 체계 위에 시리즈의 논문들을 배치하면 전체 그림이 선명해진다.

논문	워크플로우	사용 LMPR	패러다임
CoT	기본 (Actor)	정책	기본
ReAct	기본 (Actor) + 도구 사용	정책	기본 + 도구
Toolformer	도구 사용 (자율적)	정책	도구
Reflexion	피드백 학습 (평가자 + 환경)	정책 + 평가자	피드백
LATS	탐색 (MCTS)	정책 + 평가자 + 동적	계획
ETO	피드백 학습 (DPO)	정책	피드백

CoT에서 LATS로 갈수록 사용하는 역할이 늘어나고, 워크플로우가 복잡해진다. 하지만 AI Agents That Matter가 보여줬듯이, 복잡한 워크플로우가 항상 더 나은 것은 아니다. 과제의 난이도에 맞는 워크플로우를 선택하는 것이 핵심이다.

2026년의 시선 — 통합의 현재

논문이 발표된 2024년 6월로부터 약 2년이 지났다.

실현된 것: 세 패러다임의 통합이 프레임워크 수준에서 이루어졌다. LangGraph, CrewAI 같은 현대 에이전트 프레임워크는 도구 사용, 계획, 피드백 학습을 하나의 에이전트 루프 안에서 유연하게 조합할 수 있게 설계되어 있다.

확장된 것: 논문이 제안한 세 가지 LMPR이 실제로는 더 세분화되었다. 예를 들어 "오케스트레이터"나 "라우터"라는 새로운 역할이 등장하여, 여러 에이전트나 워크플로우 사이의 흐름을 조율한다.

여전히 열린 것: 범용 도구 사용 워크플로우는 아직 완전히 해결되지 않았다. 특정 과제에 맞춤화된 도구 사용과, 어떤 과제에서든 적용할 수 있는 범용 도구 사용 사이의 간극이 여전하다.

마무리 — 분류의 가치

이 논문이 제공하는 것은 새로운 에이전트 아키텍처가 아니라, 기존 아키텍처를 이해하는 렌즈다. 세 가지 역할과 네 가지 워크플로우라는 프레임워크는, 새로운 에이전트 논문을 만났을 때 "이것은 어떤 역할의 어떤 조합인가"를 즉시 파악하게 해준다.

다음 글에서는 에이전트 워크플로우의 실행 효율 문제로 넘어간다. Halo — DAG 기반 에이전트 워크플로우에서 공유 계산을 발견하고 스케줄링을 최적화하는 시스템 논문을 읽는다.

이 글은 "Agentic AI 논문 읽기" 시리즈의 열두 번째 글입니다. 시리즈 전체 목록은 시리즈 페이지에서 확인할 수 있습니다.