Agentic AI 논문 읽기: A-MEM — 제텔카스텐에서 영감받은 에이전트 기억 시스템

Written by Theo2026년 4월 8일 · 8 min read

시리즈의 글 (25개)

  1. Agentic AI 논문 읽기: CoALA — 언어 에이전트를 위한 인지 아키텍처
  2. Agentic AI 논문 읽기: ReAct — 생각과 행동을 엮은 최초의 패턴
  3. Agentic AI 논문 읽기: CoT — 생각의 사슬이 추론을 깨운 순간
  4. Agentic AI 논문 읽기: Toolformer — 언어 모델이 스스로 도구를 잡은 순간
  5. Agentic AI 논문 읽기: AutoGen — 대화로 엮는 다중 에이전트 시스템
  6. Agentic AI 논문 읽기: MetaGPT — SOP로 설계한 다중 에이전트 조직
  7. Agentic AI 논문 읽기: Multi-Agent Survey — 집단 지능의 지도를 펼치다
  8. Agentic AI 논문 읽기: Reflexion — 실패를 언어로 되감는 에이전트
  9. Agentic AI 논문 읽기: LATS — 트리 탐색으로 추론과 행동을 통합하다
  10. Agentic AI 논문 읽기: ETO — 실패 궤적으로 에이전트를 훈련하다
  11. Agentic AI 논문 읽기: AI Agents That Matter — 벤치마크의 함정을 파헤치다
  12. Agentic AI 논문 읽기: Paradigms — 도구 사용·계획·피드백의 삼각 구도
  13. Agentic AI 논문 읽기: Halo — DAG로 에이전트 워크플로우를 최적화하다
  14. Agentic AI 논문 읽기: Tool Use Evolution — 단일 도구에서 다중 오케스트레이션까지
  15. Agentic AI 논문 읽기: BloombergGPT — 금융 특화 대규모 언어 모델의 탄생
  16. Agentic AI 논문 읽기: FinGPT — 오픈소스 금융 LLM 프레임워크
  17. Agentic AI 논문 읽기: ₩on — 한국어 금융 NLP의 첫 번째 벤치마크
  18. Agentic AI 논문 읽기: DocLLM — 레이아웃 인식 문서 이해 모델
  19. Agentic AI 논문 읽기: FINCH — 스프레드시트 중심 재무 벤치마크
  20. Agentic AI 논문 읽기: InvestorBench — 금융 의사결정 에이전트 벤치마크
  21. Agentic AI 논문 읽기: Constitutional AI — 원칙 기반 자기 개선
  22. Agentic AI 논문 읽기: RLHF의 한계 — 인간 피드백 강화학습의 미해결 과제
  23. Agentic AI 논문 읽기: Autonomous Agents Survey — 자율 에이전트 구축의 해부도
  24. Agentic AI 논문 읽기: Rise and Potential — 뇌·지각·행동으로 본 에이전트 전망
  25. Agentic AI 논문 읽기: A-MEM — 제텔카스텐에서 영감받은 에이전트 기억 시스템

Agentic AI 논문 읽기: A-MEM — 제텔카스텐에서 영감받은 에이전트 기억 시스템

논문 정보

  • 제목: A-MEM: Agentic Memory for LLM Agents
  • 저자: Wujiang Xu, Zujie Liang, Kai Mei, Hang Gao, Juntao Tan, Yongfeng Zhang (Rutgers University, AIOS Foundation)
  • 출판: NeurIPS 2025 / arXiv 2502.12110 (2025.02)

시리즈의 마지막 논문이다. 스물다섯 편의 여정을 마무리하기에 이보다 적절한 주제가 없다 -- 기억.

앞선 Rise and Potential 서베이에서 에이전트를 뇌(Brain), 지각(Perception), 행동(Action)의 세 축으로 분해했다. 시리즈 전체가 이 세 축을 따라 걸어왔다. CoT에서 시작된 추론 능력은 ReAct에서 행동과 결합했고, Toolformer에서 도구를 잡았으며, AutoGen과 MetaGPT에서 다중 에이전트로 확장되었다. 하지만 이 모든 구조를 관통하는 하나의 전제가 있다 -- 에이전트가 경험을 기억하고, 그 기억을 활용할 수 있어야 한다는 것이다.

시리즈의 첫 글에서 CoALA가 에이전트의 세 축 중 하나로 기억을 꼽았다. Reflexion에서 반성이 에피소드 메모리에 저장되었고, LATS에서 트리 구조가 외부 메모리로 기능했으며, ETO에서 실패 궤적이 모델 가중치에 새겨졌다. 하지만 이 모든 경우에 메모리의 구조는 사전에 정의되어 있었다 -- 슬라이딩 윈도우, 키-값 쌍, 트리 노드. 누군가가 미리 그릇의 모양을 결정했고, 에이전트는 그 안에 경험을 부어넣을 수 있을 뿐이었다. A-MEM은 다른 질문을 던진다. 에이전트가 스스로 그릇을 빚을 수 있는가?

사전 정의된 기억의 한계 -- 왜 고정된 구조는 충분하지 않은가

기존 LLM 에이전트 메모리 시스템의 작동 방식을 돌아보자. 개발자가 메모리의 저장 구조를 미리 정의하고, 워크플로우 내 저장 시점을 지정하며, 검색 타이밍을 설정한다. Mem0 같은 시스템이 그래프 데이터베이스를 도입하여 구조화된 조직을 제공하지만, 근본적으로 사전 정의된 스키마와 관계에 의존한다. 도서관의 십진분류법이 아무리 정교하더라도, 그 분류법이 만들어질 당시 존재하지 않던 학문 분야의 책을 적절히 배치할 수 없는 것과 같다.

시리즈에서 읽은 논문들의 메모리 구현을 떠올려 보자. Reflexion은 슬라이딩 윈도우에 자연어 반성을 저장했다 -- 구조는 "최근 N개의 반성 텍스트"로 고정되어 있다. LATS는 트리 노드에 탐색 이력을 보존했다 -- 구조는 "부모-자식 관계의 트리"로 고정되어 있다. MemGPT는 운영체제의 메모리 계층(메인 컨텍스트, 아카이벌 스토리지)을 모방했다 -- 구조는 "두 계층 사이의 페이징"으로 고정되어 있다. 모든 경우에 메모리가 무엇을 기억하느냐는 유연하지만, 어떻게 조직하느냐는 설계 시점에 결정된다.

실제 시나리오에서 이 한계는 명확하다. 에이전트가 새로운 수학적 해법을 배울 때, 기존 시스템은 이 정보를 미리 설정된 프레임워크 안에서만 분류하고 연결할 수 있다. 혁신적 연결을 형성하거나, 지식이 진화함에 따라 새로운 조직 패턴을 개발하는 것은 불가능하다. 검색 단계에서 자율성을 발휘하는 RAG(Retrieval-Augmented Generation) 역시 마찬가지다 -- 검색은 유연하지만 메모리 구조 자체는 정적이다.

영감의 원천은 니클라스 루만의 제텔카스텐(Zettelkasten)이다. 독일의 사회학자가 70권의 책과 400편의 논문을 쓸 수 있었던 비결로 알려진 메모 시스템. 핵심 원칙은 세 가지다. 각 메모는 원자적(atomic)이다 -- 하나의 자기 완결적 생각을 담는다. 메모들 사이에 링크가 형성된다 -- 위계적 분류가 아니라 연상적 연결이다. 그리고 시간이 지나면서 네트워크가 자연스럽게 성장한다 -- 분류 체계를 미리 설계할 필요가 없다. 도서관이 아니라 뉴런 네트워크에 가깝다. A-MEM은 이 원리를 LLM 에이전트의 메모리 시스템에 이식한다.

세 가지 메커니즘 -- 노트, 링크, 진화

A-MEM의 아키텍처는 세 가지 핵심 메커니즘으로 구성된다.

노트 구성(Note Construction): 에이전트가 환경과 상호작용할 때, 그 경험이 구조화된 노트로 변환된다. 각 노트에는 원래 상호작용 내용, 타임스탬프, LLM이 생성한 키워드와 태그, 맥락적 설명, 임베딩 벡터, 그리고 연결된 메모리 집합이 포함된다. 제텔카스텐의 원자성 원칙 그대로 -- 각 노트가 단일한, 자기 완결적 지식 단위를 포착한다. 중요한 것은 키워드, 태그, 맥락적 설명이 모두 LLM에 의해 자율적으로 생성된다는 점이다. 개발자가 분류 체계를 미리 설계하지 않는다.

링크 생성(Link Generation): 새 메모리 노트가 시스템에 추가되면, 두 단계의 연결 과정이 자동으로 작동한다. 먼저 임베딩 기반 코사인 유사도로 상위 k개의 관련 기존 메모리를 검색한다. 그 다음 LLM이 새 메모리와 후보 메모리들을 분석하여, 공유 속성, 인과 관계, 개념적 연결에 기반한 의미 있는 링크를 설정한다. 임베딩 유사도를 초기 필터로 사용하여 효율성을 확보하면서, LLM 분석으로 단순 유사도 지표를 넘어서는 미묘한 패턴과 관계를 포착한다.

메모리 진화(Memory Evolution): 가장 독창적인 메커니즘이다. 링크가 생성된 후, A-MEM은 연결된 기존 메모리들을 새 메모리와의 관계에 기반하여 진화시킨다. LLM이 각 이웃 메모리에 대해 맥락, 키워드, 태그를 업데이트할지 결정하고, 강화(strengthen), 병합(merge), 가지치기(prune) 중 적절한 행동을 선택한다. 시간이 지남에 따라 개별 메모리들 사이에서 고차원 패턴과 추상적 개념이 자연스럽게 출현한다.

이 세 메커니즘 위에 **검색(Retrieve Relative Memory)**이 작동한다. 쿼리가 들어오면 임베딩 기반으로 상위 k개 메모리를 찾되, 검색된 메모리와 같은 링크 그룹에 있는 관련 메모리도 자동으로 접근한다. 하나의 실마리에서 출발하여 연결된 기억의 네트워크 전체를 탐색하는 것이다. 이것이 Multi-Hop 추론에서 A-MEM이 압도적 우위를 보이는 구조적 이유다.

구체적 예를 들어보자. 에이전트가 "사용자가 매주 월요일 아침 카페에서 회의한다"는 대화를 기억한다고 하자. 이후 "지난 월요일 카페가 문을 닫아서 사무실에서 만났다"는 대화가 추가되면, A-MEM은 두 메모리를 링크하고, 기존 메모리의 맥락적 설명을 "사용자의 월요일 루틴은 유연할 수 있다"로 진화시킨다. 나아가 "사용자가 좋아하는 카페 메뉴"에 관한 별도의 메모리가 있다면, 이것도 같은 링크 그룹으로 연결될 수 있다. 고정된 슬롯에 최신 정보를 덮어쓰는 것이 아니라, 기존 기억 자체가 새 경험에 비추어 재해석되고, 관련 기억들이 하나의 의미 네트워크로 엮이는 것이다.

벤치마크 -- 더 적은 토큰으로 더 정확한 기억

논문은 LoCoMo(장기 대화, 평균 9K 토큰, 최대 35 세션)와 DialSim(장기 다자간 대화, 1,300 세션, 350,000 토큰)의 두 데이터셋에서, 6개 기반 모델에 걸쳐 평가를 수행했다. 결과는 일관된다.

방법 Multi-Hop F1 Temporal F1 Average Ranking
LoCoMo 25.02 9.09 2.4
MemGPT 26.65 25.52 2.4
ReadAgent 2.81 -- --
A-MEM 27.02 45.85 1.2

GPT-4o-mini 기준 결과이며, GPT-4o에서는 격차가 더 벌어진다 -- Multi-Hop F1에서 A-MEM 45.85 대 LoCoMo 18.47로 약 2.5배 향상이다. 오픈소스 모델(Qwen2.5-15b)에서는 Multi-Hop ROUGE-L이 27.23으로, LoCoMo의 4.68 대비 거의 6배 차이를 보인다.

Multi-Hop에서의 압도적 우위가 특히 의미 있는 이유는, 이것이 A-MEM의 링크 구조가 가져다주는 직접적 이점이기 때문이다. Multi-Hop 질문은 여러 대화에 흩어진 정보를 조합해야 답할 수 있다. "사용자가 좋아하는 식당이 어디이고, 그 식당의 메뉴 중 무엇을 주문했는지"를 묻는 질문에 답하려면, 식당에 관한 메모리와 주문에 관한 메모리가 연결되어 있어야 한다. 고정된 검색 구조로는 이 연결을 자동으로 따라갈 수 없지만, A-MEM의 링크 네트워크는 하나의 메모리에서 출발하여 관련 메모리의 네트워크 전체를 자동으로 탐색한다.

비용 효율성도 주목할 만하다. A-MEM의 메모리 연산당 토큰 사용량은 1,2002,500으로, LoCoMo와 MemGPT의 16,900 대비 8593%를 절감한다. 연산당 비용은 $0.0003 미만이며, 처리 시간은 GPT-4o-mini 기준 5.4초, 로컬 Llama 3.2 1B에서는 1.1초다. AI Agents That Matter가 경고한 "정확도-비용 트레이드오프"를 정면으로 돌파하는 결과다.

스케일링 특성도 확인되었다. 1,000에서 1,000,000 메모리 엔트리까지 확장했을 때, A-MEM의 검색 시간은 0.31 마이크로초에서 3.70 마이크로초로 선형에 가깝게 증가한다. 같은 조건에서 ReadAgent는 43.62 마이크로초에서 120,069 마이크로초로 폭증하여, 100만 엔트리 기준 A-MEM이 약 63,000배 빠르다.

제거 실험은 각 메커니즘의 기여를 분리한다.

구성 Multi-Hop F1 Average F1
w/o LG and ME 9.65 15.32
w/o ME (LG만) 21.35 44.16
A-MEM (전체) 27.02 50.03

링크 생성이 핵심 기반이고(9.65에서 21.35로 도약), 메모리 진화가 추가적 정제를 제공하며(21.35에서 27.02로), 두 모듈이 상호 보완적이라는 결론이다. 제텔카스텐의 원리로 돌아가면 당연한 결과이기도 하다 -- 노트 사이의 링크가 없으면 그것은 그저 메모 더미이고, 시간에 따른 진화가 없으면 네트워크는 화석이 된다.

한계 -- 자율적 기억의 대가

세 가지 한계가 눈에 띈다.

첫째, 메모리 조직의 품질이 기반 LLM의 능력에 직접적으로 의존한다. 다른 모델은 다른 맥락적 설명을 생성하고 다른 연결을 설정할 수 있다. 시리즈에서 반복적으로 관찰한 패턴이다 -- AI Agents That Matter가 지적했듯, 기반 모델의 선택이 에이전트 전체의 성능 천장을 결정한다.

둘째, LLM 기반 링크 생성의 비용이다. 새 메모리가 추가될 때마다 LLM을 호출하여 후보 메모리와의 관계를 분석하고, 연결된 메모리를 진화시킨다. 메모리의 수가 증가할수록 이 비용이 누적된다. 스케일링 분석에서 검색 시간 자체는 100만 엔트리에서도 3.70마이크로초로 효율적이지만, 메모리 저장 시점의 LLM 호출 비용은 별개의 문제다.

셋째, 메모리 진화의 누적 효과에 대한 불확실성이다. 장기간에 걸쳐 메모리가 반복적으로 진화하면, 원래 정보로부터의 드리프트(drift)가 발생할 수 있다. 인간의 기억도 회상할 때마다 미세하게 변형된다는 심리학 연구와 유사한 현상이다. 제텔카스텐의 비유를 이어가자면, 루만의 카드 상자는 종이에 잉크로 기록되었기에 원본이 보존되었지만, A-MEM의 디지털 메모리는 진화 과정에서 원본이 대체된다. 원본을 별도로 보존하는 메커니즘이 필요할 수 있다.

현재 논문은 텍스트 기반 상호작용에 초점을 맞추고 있어, 이미지나 오디오 같은 멀티모달 확장 역시 향후 과제로 남아 있다. Rise and Potential이 지각(Perception) 축에서 멀티모달 입력의 중요성을 강조한 것을 떠올리면, 기억 시스템의 멀티모달 확장은 자연스러운 다음 단계다.

CoALA 좌표계의 완성

시리즈의 첫 글에서 세운 좌표계로 돌아간다. A-MEM은 기억 축의 최종 진화를 보여준다.

시리즈 논문 기억 방식 구조의 자율성
CoALA 기억의 존재를 정의 프레임워크만 제시
Reflexion 반성 텍스트를 슬라이딩 윈도우에 저장 구조는 고정, 내용만 자율
LATS 트리 구조로 탐색 이력 보존 구조는 고정, 탐색은 자율
ETO 궤적 쌍을 모델 가중치에 내재화 구조 자체가 모델에 흡수
A-MEM 자율적으로 구조를 만들고 진화시키는 기억 구조와 내용 모두 자율

에이전트의 기억은 고정된 구조에서 동적 구조로, 외부 저장에서 자기 조직화로 진화해왔다. CoALA가 지도를 그렸고, Reflexion이 첫 발자국을 남겼으며, A-MEM은 그 지도 위에 에이전트가 스스로 길을 내도록 한 것이다.

행동 축에서는 ReAct가 도구 호출의 문법을, Toolformer가 도구 선택의 자율성을, Halo가 워크플로우 전체의 최적화를 보여주었다. 판단 축에서는 CoT가 추론의 구조를, Reflexion이 반성의 루프를, LATS가 탐색의 체계를 제시했다. 그리고 기억 축에서 A-MEM이 구조와 내용 모두의 자율성을 달성함으로써, CoALA가 제시한 에이전트의 세 축 -- 기억, 행동, 판단 -- 모두에서 자율성의 가능성이 입증되었다.

시리즈를 마치며

스물다섯 편의 논문을 통해 에이전트 AI의 지형을 걸었다. 추론의 씨앗(CoT)에서 행동과의 결합(ReAct)으로, 도구 사용(Toolformer)에서 다중 에이전트(AutoGen, MetaGPT)로, 자기 반성(Reflexion)에서 체계적 탐색(LATS)으로, 모델 훈련(ETO)에서 비판적 평가(AI Agents That Matter)로, 금융 특화(BloombergGPT에서 FINCH까지)에서 안전성(Constitutional AI, RLHF)으로, 그리고 마침내 기억(A-MEM)으로.

돌아보면, 이 여정에서 반복적으로 나타난 패턴이 있다.

구조는 덜어내고, 자율성은 더한다. CoT가 추론의 구조를 명시적으로 제시했다면, 후속 연구들은 그 구조를 에이전트 스스로 결정하게 했다. ReAct의 고정된 Thought-Action-Observation 루프는 LATS의 동적 트리 탐색으로, 그리고 A-MEM의 자기 조직화 메모리로 진화했다. 사전 정의된 틀을 줄이고 에이전트의 자율적 판단을 늘리는 것이 일관된 방향이다.

실패는 가장 풍부한 학습 신호다. Reflexion은 실패를 자연어로 반성했고, LATS는 실패 지점에서 트리를 분기했으며, ETO는 실패 궤적을 모델 가중치에 새겼다. 성공만 보고 배우는 행동 클로닝보다, 실패와 성공을 대조하는 학습이 일관되게 우수했다. 인간의 학습과 다르지 않다.

에이전트는 혼자보다 함께일 때 강하다. AutoGen의 대화 기반 협업, MetaGPT의 SOP 기반 조직, Multi-Agent Survey의 집단 지능 -- 다중 에이전트 시스템은 단순히 여러 모델을 동시에 돌리는 것이 아니라, 역할 분담과 상호 검증을 통해 개별 에이전트의 한계를 넘어선다. 흥미롭게도, A-MEM의 메모리 진화 메커니즘 안에도 이 원리가 작동한다 -- 개별 메모리가 서로를 업데이트하며 전체 네트워크의 지능이 성장한다.

벤치마크를 의심하되, 평가를 포기하지 마라. AI Agents That Matter가 가장 날카롭게 지적한 바 -- 정확도만 추구하면 비용이 폭증하고, 비용만 줄이면 정확도가 무너진다. 범용성과 전문성, 성능과 효율, 자율성과 안전성 사이의 긴장은 어느 하나의 논문으로 해소되지 않는다. A-MEM이 85~93%의 토큰 절감과 동시에 성능 향상을 달성한 것은, 이 긴장을 해소하는 것이 불가능하지 않다는 희망적 사례이기도 하다.

도메인 특화와 범용성은 공존할 수 있다. BloombergGPT에서 FINCH까지의 금융 특화 연구, DocLLM의 문서 이해, Won의 한국어 금융 NLP -- 이 논문들은 범용 모델만으로는 전문 영역의 깊이에 도달하기 어렵다는 것을 보여주었다. 동시에 Paradigms 서베이가 정리한 도구 사용, 계획, 피드백의 삼각 구도는 도메인에 관계없이 적용되는 보편적 원칙이었다. 전문성은 데이터와 평가에서, 범용성은 아키텍처에서 온다.

2026년 4월의 시점에서 에이전트 AI의 현황을 정리하면 이렇다. 추론과 계획의 기본 능력은 확립되었고, 도구 사용과 환경 상호작용의 프레임워크가 성숙했으며, 다중 에이전트 협업의 패러다임이 자리를 잡았다. 금융, 의료, 법률 같은 도메인 특화 에이전트가 실무에 투입되기 시작했고, A-MEM이 보여준 것처럼 메모리 시스템이 마지막 퍼즐 조각으로 빠르게 진화하고 있다.

그러나 안전성과 정렬(alignment)은 여전히 진행 중인 과제다. Constitutional AI와 RLHF가 방향을 제시했지만, 자율성이 높아질수록 예측 불가능성도 함께 증가한다는 근본적 긴장은 해소되지 않았다. 진정한 자율 에이전트 -- 인간의 개입 없이 장기간 복잡한 목표를 추구하는 시스템 -- 는 아직 연구의 전선에 있다.

시리즈를 쓰는 동안 한 가지가 분명해졌다. 에이전트 AI는 단일한 돌파구가 아니라, 수많은 작은 진보의 축적이다. CoT의 프롬프트 한 줄이 추론을 열었고, ReAct의 루프 하나가 행동을 결합했으며, 제텔카스텐의 오래된 메모 방법론이 기억의 자율성을 가능하게 했다. 각각은 겸손한 한 걸음이지만, 스물다섯 걸음이 모이면 풍경이 달라진다.

어쩌면 이 시리즈 자체가 일종의 제텔카스텐이었는지도 모른다. 각 논문이 하나의 원자적 노트이고, 논문들 사이의 참조와 대조가 링크이며, 글을 쓰는 과정에서 초기 논문에 대한 이해가 후기 논문의 관점으로 진화했다. CoALA를 처음 읽었을 때와 A-MEM을 읽고 난 후 CoALA를 다시 떠올릴 때, 같은 프레임워크가 다르게 보인다. 기억이 진화한 것이다.

이 시리즈가 읽은 스물다섯 편의 논문은 그 전선의 지도이자, 동시에 그 전선이 얼마나 빠르게 이동하고 있는지를 보여주는 시간의 기록이다. 논문은 여기서 끝나지만, 에이전트의 진화는 계속된다.


이 글은 "Agentic AI 논문 읽기" 시리즈의 스물다섯 번째이자 마지막 글입니다. 시리즈 전체 목록은 시리즈 페이지에서 확인할 수 있습니다.

Copyright ⓒ 2026 Theo All rights reserved.

Created by @Theo. Powered By @Vallista-land