Agentic AI 논문 읽기: Autonomous Agents Survey — 자율 에이전트 구축의 해부도

Written by Theo2026년 4월 8일 · 6 min read

시리즈의 글 (25개)

  1. Agentic AI 논문 읽기: CoALA — 언어 에이전트를 위한 인지 아키텍처
  2. Agentic AI 논문 읽기: ReAct — 생각과 행동을 엮은 최초의 패턴
  3. Agentic AI 논문 읽기: CoT — 생각의 사슬이 추론을 깨운 순간
  4. Agentic AI 논문 읽기: Toolformer — 언어 모델이 스스로 도구를 잡은 순간
  5. Agentic AI 논문 읽기: AutoGen — 대화로 엮는 다중 에이전트 시스템
  6. Agentic AI 논문 읽기: MetaGPT — SOP로 설계한 다중 에이전트 조직
  7. Agentic AI 논문 읽기: Multi-Agent Survey — 집단 지능의 지도를 펼치다
  8. Agentic AI 논문 읽기: Reflexion — 실패를 언어로 되감는 에이전트
  9. Agentic AI 논문 읽기: LATS — 트리 탐색으로 추론과 행동을 통합하다
  10. Agentic AI 논문 읽기: ETO — 실패 궤적으로 에이전트를 훈련하다
  11. Agentic AI 논문 읽기: AI Agents That Matter — 벤치마크의 함정을 파헤치다
  12. Agentic AI 논문 읽기: Paradigms — 도구 사용·계획·피드백의 삼각 구도
  13. Agentic AI 논문 읽기: Halo — DAG로 에이전트 워크플로우를 최적화하다
  14. Agentic AI 논문 읽기: Tool Use Evolution — 단일 도구에서 다중 오케스트레이션까지
  15. Agentic AI 논문 읽기: BloombergGPT — 금융 특화 대규모 언어 모델의 탄생
  16. Agentic AI 논문 읽기: FinGPT — 오픈소스 금융 LLM 프레임워크
  17. Agentic AI 논문 읽기: ₩on — 한국어 금융 NLP의 첫 번째 벤치마크
  18. Agentic AI 논문 읽기: DocLLM — 레이아웃 인식 문서 이해 모델
  19. Agentic AI 논문 읽기: FINCH — 스프레드시트 중심 재무 벤치마크
  20. Agentic AI 논문 읽기: InvestorBench — 금융 의사결정 에이전트 벤치마크
  21. Agentic AI 논문 읽기: Constitutional AI — 원칙 기반 자기 개선
  22. Agentic AI 논문 읽기: RLHF의 한계 — 인간 피드백 강화학습의 미해결 과제
  23. Agentic AI 논문 읽기: Autonomous Agents Survey — 자율 에이전트 구축의 해부도
  24. Agentic AI 논문 읽기: Rise and Potential — 뇌·지각·행동으로 본 에이전트 전망
  25. Agentic AI 논문 읽기: A-MEM — 제텔카스텐에서 영감받은 에이전트 기억 시스템

Agentic AI 논문 읽기: Autonomous Agents Survey — 자율 에이전트 구축의 해부도

논문 정보

  • 제목: A Survey on Large Language Model based Autonomous Agents
  • 저자: Lei Wang, Chen Ma, Xueyang Feng 외 (Renmin University of China, Tencent)
  • 출판: Frontiers of Computer Science, 2024 / arXiv 2308.11432

앞선 글에서 RLHF의 파이프라인이 매 단계마다 근본적 균열을 품고 있음을 확인했다. 인간 피드백은 일관적이지 않고, 보상 모델은 해킹에 취약하며, 정책 최적화는 표면적 패턴을 악용한다. 그렇다면 질문은 자연스럽게 옮겨진다 — 정렬의 이론적 한계를 인식한 뒤, 에이전트를 실제로 만들 때는 무엇을 어떻게 설계해야 하는가?

정렬 이론이 "어떤 에이전트가 바람직한가"를 묻는다면, 이 서베이는 "에이전트를 어떻게 조립하는가"를 묻는다. 건축에 비유하면, RLHF 논의가 건물의 안전 기준을 정하는 일이라면, 이 논문은 기둥, 벽, 배관, 전기 — 건물을 실제로 세우는 도면을 그리는 일이다. 시리즈 첫 글에서 CoALA가 에이전트의 인지 아키텍처를 기억-행동-판단의 세 축으로 그렸고, 일곱 번째 글에서 Multi-Agent Survey가 다중 에이전트의 지형을 네 축으로 분류했다. 이 서베이는 그 사이를 메운다 — 단일 에이전트의 구축(Construction)과 응용(Application)을 체계적으로 분류하면서, 각 모듈의 구현 선택지까지 나열한다.

2023년 8월에 발표된 이 논문은, 86페이지에 걸쳐 당시까지의 LLM 기반 에이전트 연구를 하나의 분류 체계 안에 정리한다. Renmin University of China와 Tencent의 연구팀이 수십 편의 논문을 하나의 좌표계 위에 배치하려는 시도다. 출발점은 단순한 질문이다. 에이전트를 만들려면 무엇이 필요한가? 답은 네 개의 모듈로 압축된다.

설계도가 없는 건축 현장 — 통합 프레임워크의 부재

2023년 중반, LLM 기반 에이전트 연구는 폭발적으로 늘고 있었지만 공통 언어가 없었다. ReAct는 "추론과 행동의 시너지"를, Toolformer는 "도구 사용의 자율성"을, Reflexion은 "언어적 반성"을, Generative Agents는 "사회적 시뮬레이션"을 각각 제안했다. 문제는 이 연구들이 서로 다른 용어, 서로 다른 분류, 서로 다른 평가 기준을 쓰고 있었다는 점이다.

건축에서 설계도는 단순히 건물의 모양을 보여주는 그림이 아니다. 기둥이 어디 서는지, 배관이 어떻게 흐르는지, 전기가 어디서 들어오는지를 하나의 좌표계 위에 올려놓는 체계다. 설계도 없이 건물을 지을 수는 있다. 하지만 설계도 없이는 건물을 비교하거나, 어디가 부실한지 진단하거나, 다음 건물을 더 잘 지을 수가 없다.

CoALA는 인지과학의 렌즈로 에이전트를 분류하는 추상적 좌표계를 제시했다. 하지만 추상적 좌표계만으로는 실제 구축에서의 설계 결정 — 에이전트의 역할을 어떻게 정의할지, 메모리를 어떤 구조로 설계할지, 계획 수립에 피드백을 포함할지 — 을 안내하기 어렵다. 이 서베이는 그 공백을 채운다. CoALA가 지도라면, 이 논문은 시공 매뉴얼이다.

네 개의 기둥 — 에이전트 구축의 4모듈 프레임워크

논문은 에이전트 구축을 네 가지 핵심 모듈로 분해한다. 프로파일링, 메모리, 계획, 행동. 각 모듈은 독립적으로 설계되지만, 서로 맞물려 에이전트의 능력을 결정한다.

프로파일링 모듈 — 에이전트의 정체성

에이전트가 "무엇인지"를 정의하는 첫 단계다. 역할, 성격, 전문성, 행동 양식을 규정한다. 세 가지 방법이 있다.

  • 핸드크래프팅(Handcrafting): 인간이 직접 역할을 기술한다. "당신은 금융 전문가입니다" 같은 시스템 프롬프트가 여기에 해당한다.
  • LLM 생성: LLM이 자동으로 에이전트 프로필을 만든다. Generative Agents에서 1,000명의 시뮬레이션 참여자를 생성한 것이 대표적이다.
  • 데이터셋 정렬: 실제 데이터에서 프로필을 구성한다. 인구통계 데이터나 소셜 미디어 프로필을 기반으로 에이전트를 초기화한다.

시리즈에서 읽은 MetaGPT의 역할 분배(Product Manager, Architect, Engineer)는 핸드크래프팅의 전형이다. AutoGen의 에이전트 정의도 마찬가지다. 프로파일링이 중요한 이유는, 같은 LLM이라도 어떤 역할을 부여하느냐에 따라 출력의 성격이 완전히 달라지기 때문이다.

메모리 모듈 — 경험의 저장과 검색

에이전트가 과거를 기억하고, 현재에 활용하는 방법을 다룬다. 두 종류의 메모리가 핵심이다.

  • 단기 메모리: 현재 대화의 맥락. 인컨텍스트 학습(in-context learning)으로 구현되며, 컨텍스트 윈도우의 크기에 제약된다.
  • 장기 메모리: 과거 경험과 축적된 지식. 외부 벡터 데이터베이스에 저장하고, 유사도 검색으로 필요한 정보를 꺼낸다.

Generative Agents의 메모리 검색이 이 모듈의 가장 정교한 구현이었다. 최근성(recency), 관련성(relevance), 중요도(importance) 세 가지 점수를 결합하여 어떤 기억을 떠올릴지 결정한다. CoALA가 기억을 작업 기억, 일화 기억, 의미 기억, 절차 기억의 네 서랍으로 나눈 것과 비교하면, 이 서베이의 분류는 더 실용적이다 — 단기와 장기, 그리고 그 사이의 검색 메커니즘에 집중한다.

계획 모듈 — 과제 분해와 정제

복잡한 과제를 하위 과제로 쪼개고, 실행 순서를 정하고, 필요하면 수정하는 과정이다. 논문은 이를 피드백의 유무로 양분한다.

  • 피드백 없는 계획: 한 번에 전체 계획을 세운다. CoT(Chain-of-Thought)가 단일 경로, ToT(Tree of Thoughts)가 다중 경로, GoT(Graph of Thoughts)가 그래프 기반 분해를 대표한다.
  • 피드백 있는 계획: 실행 결과를 보고 계획을 수정한다. 환경 피드백(ReAct), 인간 피드백, 모델 피드백(Reflexion)으로 나뉜다. LATS는 트리 탐색과 환경 피드백을 결합한 사례다.

외부 플래너(PDDL 등 전통적 계획 시스템)를 LLM과 결합하는 접근도 있다. LLM이 자연어 문제를 형식적 계획 언어로 번역하고, 기존 솔버가 최적 계획을 찾는 방식이다.

행동 모듈 — 환경과의 상호작용

계획을 실제 행동으로 옮기는 마지막 단계다. 세 가지 유형이 있다.

  • 도구 사용: API 호출, 코드 실행, 데이터베이스 검색. Toolformer가 이 영역을 개척했다.
  • 구현(Embodied Action): 텍스트 생성, 코드 작성, 물리적 행동. 디지털 환경에서의 텍스트 출력부터 로봇의 물리적 조작까지 포함한다.
  • 기억/학습: 경험을 메모리에 저장하여 미래 행동을 개선한다. 행동의 결과가 다시 메모리로 돌아가는 피드백 루프다.

시리즈 논문의 모듈 배치

시리즈에서 읽은 논문들이 이 네 모듈의 어디에 위치하는지 정리하면, 각 연구의 기여가 더 선명해진다.

모듈 관련 논문 핵심 기여
프로파일링 MetaGPT, AutoGen 역할 기반 에이전트 정의, 다중 페르소나 설계
메모리 Reflexion, Generative Agents 자기 반성의 언어적 기록, 검색 기반 장기 기억
계획 CoT, ToT, LATS, ReAct 단일/다중 경로 추론, 트리 탐색, 피드백 기반 정제
행동 Toolformer, ReAct 자율적 도구 선택, 추론-행동 교차 실행

CoALA의 기억-행동-판단 축과 비교하면, 이 서베이는 프로파일링이라는 새로운 차원을 추가한다. 에이전트의 "정체성"을 설계의 첫 단계로 명시한 것은, 실제 구축 과정에서의 필요를 반영한 판단이다.

네 개의 무대 — 응용 영역

구축 프레임워크가 "어떻게 만드는가"에 답한다면, 응용 분류는 "어디에 쓰는가"에 답한다. 논문은 크게 세 갈래로 나눈다.

사회 시뮬레이션: Generative Agents가 대표한다. 에이전트들이 가상 마을에서 일상을 살아가며, 사회적 행동의 패턴을 생성한다. 경제 시뮬레이션, 게임 이론 검증, 여론 형성 실험 등이 여기에 속한다. 프로파일링 모듈이 핵심 역할을 하는 영역이다 — 다양한 성격과 배경을 가진 에이전트를 대량으로 생성해야 하기 때문이다. 흥미로운 점은, 이 영역에서는 에이전트의 "정확성"보다 "그럴듯함"이 더 중요하다는 것이다. 사회 시뮬레이션의 목적은 정답을 맞추는 것이 아니라 행동 패턴을 탐색하는 것이므로.

소프트웨어 개발: MetaGPT와 ChatDev가 대표적이다. 요구사항 분석부터 코드 생성, 테스트, 디버깅까지의 전 과정을 에이전트가 수행한다. 계획 모듈과 행동 모듈이 긴밀하게 결합되어야 하는 영역이다. AutoGen의 유연한 대화 기반 협업도 이 범주에 들어간다.

게임과 과학: Voyager가 Minecraft에서 자율 탐험하며 스킬을 축적하는 것이 게임 응용의 대표적 사례다. 과학 연구에서는 약물 발견, 수학 증명, 실험 설계 자동화 등에 에이전트가 활용된다. 장기 메모리와 계획 모듈이 특히 중요한 영역이다 — 탐색 공간이 넓고, 시행착오를 기억해야 하므로.

논문의 분류에서 눈에 띄는 것은, 응용 영역마다 네 모듈의 비중이 다르다는 점이다. 사회 시뮬레이션은 프로파일링에, 소프트웨어 개발은 계획과 행동에, 과학 연구는 메모리에 무게가 실린다. 이 차이가 시사하는 바는, 범용 에이전트 프레임워크를 설계할 때 네 모듈의 비중을 도메인에 따라 유연하게 조절할 수 있어야 한다는 것이다.

설계도의 빈칸 — 프레임워크의 한계

이 서베이가 제시한 4모듈 프레임워크는 실용적이지만, 몇 가지 구조적 한계가 있다.

첫째, 안전과 정렬 차원의 부재다. 프로파일링, 메모리, 계획, 행동 — 어디에도 "에이전트가 해서는 안 되는 것"을 다루는 모듈이 없다. RLHF의 한계에서 본 것처럼, 정렬은 에이전트 설계에서 빼놓을 수 없는 축이다. 그런데 이 프레임워크에서는 안전이 네 모듈 중 어디에도 명시적으로 자리를 잡지 못한다. Constitutional AI가 제기한 원칙 기반 제약이 프로파일링에 속하는지, 계획에 속하는지, 아니면 별도의 모듈이 되어야 하는지가 불분명하다.

둘째, 커버리지 편향이다. 서베이가 작성된 2023년 중반 시점의 연구 지형을 반영하므로, 이후 급격히 발전한 영역 — 코드 생성 에이전트, 멀티모달 에이전트, 에이전트 간 프로토콜 — 이 충분히 다뤄지지 않았다. 서베이는 본질적으로 스냅샷이다.

셋째, 모듈 간 상호작용의 깊이가 부족하다. 네 모듈을 독립적으로 설명하는 것은 명쾌하지만, 실제 에이전트에서는 메모리가 계획에 영향을 주고, 계획이 행동을 결정하고, 행동의 결과가 메모리를 갱신하는 순환이 핵심이다. 이 순환의 설계 — 어떤 정보를 어디에 흘리고, 어디서 끊을지 — 가 프레임워크에서 충분히 다뤄지지 않는다. Reflexion이 행동-반성-기억의 루프를, ReAct가 추론-행동의 교차를 제시한 것처럼, 모듈 간 연결의 패턴이야말로 에이전트의 실질적 능력을 결정하는 요소인데 말이다.

넷째, 평가 프레임워크의 미성숙이다. 논문은 주관적 평가(인간 주석, Elo 점수)와 객관적 평가(자동 벤치마크)를 구분하지만, 어떤 벤치마크가 어떤 모듈의 능력을 측정하는지의 대응 관계가 불명확하다. 시리즈에서 나중에 다루게 될 AI Agents That Matter가 바로 이 평가의 함정을 파고든다.

2026년의 시선 — 설계도는 어떻게 늙었는가

이 서베이가 발표된 지 2년 반이 지났다. 4모듈 프레임워크는 여전히 에이전트를 설명하는 데 쓸모 있는 골격인가?

프로파일링은 더 정교해졌다. 단순한 시스템 프롬프트를 넘어, 에이전트의 역할이 YAML manifest나 구조화된 설정 파일로 정의되고, 런타임에 동적으로 조정되는 방식이 보편화됐다. "당신은 금융 전문가입니다"라는 한 줄에서, 도구 접근 권한, 행동 제약, 통신 프로토콜까지 포함하는 다차원 프로필로 진화한 것이다.

메모리는 가장 활발히 발전한 모듈이다. 시리즈 마지막 글에서 다룰 A-MEM이 제텔카스텐에서 영감받은 구조화된 기억 시스템을 제안했고, RAG를 넘어 에이전트가 기억의 저장과 검색 전략을 스스로 결정하는 방향으로 나아가고 있다. 서베이가 제시한 단기/장기의 이분법은 여전히 유효하지만, 그 안의 구현 방식은 근본적으로 달라졌다.

계획은 가장 극적으로 변한 모듈이다. 서베이 시점에는 CoT와 ToT 수준의 프롬프트 기반 계획이 주류였지만, 이제는 o1 이후의 추론 모델이 계획 능력을 LLM 내부에 흡수했다. 외부 계획 모듈이 필요 없어진 것은 아니지만, 경계가 흐려졌다.

행동은 도구 사용이 보편화되면서 가장 성숙한 모듈이 됐다. Toolformer가 "LLM이 도구를 잡을 수 있다"를 증명한 단계에서, MCP(Model Context Protocol) 같은 표준 프로토콜이 도구 통합을 체계화하는 단계로 넘어왔다. 시리즈에서 다룬 Tool Use Evolution이 정리한 "단일 도구에서 다중 오케스트레이션까지"의 궤적이, 이 모듈의 진화를 압축적으로 보여준다.

결국 4모듈 프레임워크 자체는 살아남았다. 에이전트를 만들 때 정체성, 기억, 계획, 행동을 각각 설계해야 한다는 관찰은 여전히 참이다. 달라진 것은 각 모듈의 내부 구현과 모듈 간 경계의 유동성이다.

CoALA와의 비교도 흥미롭다. CoALA는 인지과학의 언어로 에이전트를 분류하여, 이론적 완결성에서 우위를 갖는다. 이 서베이는 구현의 언어로 에이전트를 분류하여, 실용적 가이드로서 더 직접적이다. 2026년의 시점에서 보면, 두 프레임워크 모두 에이전트의 특정 측면을 잘 포착하지만, 에이전트-에이전트 상호작용(Multi-Agent Survey의 영역)과 인간-에이전트 정렬(RLHF와 Constitutional AI의 영역)을 통합하는 더 포괄적인 프레임워크는 아직 등장하지 않았다.

마무리

한 문장으로 줄이면 이렇다. 에이전트는 정체성, 기억, 계획, 행동이라는 네 개의 기둥 위에 서며, 어떤 기둥을 얼마나 정교하게 세우느냐가 에이전트의 성격과 한계를 결정한다.

이 서베이는 완벽한 설계도가 아니다. 안전 차원이 빠져 있고, 모듈 간 순환의 깊이가 부족하며, 2023년의 스냅샷이라는 한계가 있다. 그럼에도 "에이전트를 만들려면 무엇이 필요한가?"라는 질문에 대해, 당시까지 가장 체계적인 답을 제시한 논문이다. 에이전트를 처음 설계하는 사람에게, "프로파일링은 했는가? 메모리 구조는 정했는가? 계획 전략은 선택했는가? 행동 인터페이스는 정의했는가?" — 이 네 가지 질문은 지금도 유효한 체크리스트다.

다음 글에서는 에이전트를 다른 렌즈로 바라보는 또 다른 서베이를 읽는다. Rise and Potential — 뇌, 지각, 행동의 세 축으로 에이전트의 미래를 전망한다. 같은 대상을 서로 다른 축으로 분해할 때, 보이지 않던 면이 드러난다.


이 글은 "Agentic AI 논문 읽기" 시리즈의 스물세 번째 글입니다. 시리즈 전체 목록은 시리즈 페이지에서 확인할 수 있습니다.

Copyright ⓒ 2026 Theo All rights reserved.

Created by @Theo. Powered By @Vallista-land