Agentic AI 논문 읽기: InvestorBench — 금융 의사결정 에이전트 벤치마크

Written by Theo2026년 4월 7일 · 8 min read

시리즈의 글 (25개)

  1. Agentic AI 논문 읽기: CoALA — 언어 에이전트를 위한 인지 아키텍처
  2. Agentic AI 논문 읽기: ReAct — 생각과 행동을 엮은 최초의 패턴
  3. Agentic AI 논문 읽기: CoT — 생각의 사슬이 추론을 깨운 순간
  4. Agentic AI 논문 읽기: Toolformer — 언어 모델이 스스로 도구를 잡은 순간
  5. Agentic AI 논문 읽기: AutoGen — 대화로 엮는 다중 에이전트 시스템
  6. Agentic AI 논문 읽기: MetaGPT — SOP로 설계한 다중 에이전트 조직
  7. Agentic AI 논문 읽기: Multi-Agent Survey — 집단 지능의 지도를 펼치다
  8. Agentic AI 논문 읽기: Reflexion — 실패를 언어로 되감는 에이전트
  9. Agentic AI 논문 읽기: LATS — 트리 탐색으로 추론과 행동을 통합하다
  10. Agentic AI 논문 읽기: ETO — 실패 궤적으로 에이전트를 훈련하다
  11. Agentic AI 논문 읽기: AI Agents That Matter — 벤치마크의 함정을 파헤치다
  12. Agentic AI 논문 읽기: Paradigms — 도구 사용·계획·피드백의 삼각 구도
  13. Agentic AI 논문 읽기: Halo — DAG로 에이전트 워크플로우를 최적화하다
  14. Agentic AI 논문 읽기: Tool Use Evolution — 단일 도구에서 다중 오케스트레이션까지
  15. Agentic AI 논문 읽기: BloombergGPT — 금융 특화 대규모 언어 모델의 탄생
  16. Agentic AI 논문 읽기: FinGPT — 오픈소스 금융 LLM 프레임워크
  17. Agentic AI 논문 읽기: ₩on — 한국어 금융 NLP의 첫 번째 벤치마크
  18. Agentic AI 논문 읽기: DocLLM — 레이아웃 인식 문서 이해 모델
  19. Agentic AI 논문 읽기: FINCH — 스프레드시트 중심 재무 벤치마크
  20. Agentic AI 논문 읽기: InvestorBench — 금융 의사결정 에이전트 벤치마크
  21. Agentic AI 논문 읽기: Constitutional AI — 원칙 기반 자기 개선
  22. Agentic AI 논문 읽기: RLHF의 한계 — 인간 피드백 강화학습의 미해결 과제
  23. Agentic AI 논문 읽기: Autonomous Agents Survey — 자율 에이전트 구축의 해부도
  24. Agentic AI 논문 읽기: Rise and Potential — 뇌·지각·행동으로 본 에이전트 전망
  25. Agentic AI 논문 읽기: A-MEM — 제텔카스텐에서 영감받은 에이전트 기억 시스템

Agentic AI 논문 읽기: InvestorBench — 금융 의사결정 에이전트 벤치마크

논문 정보

  • 제목: InvestorBench: A Benchmark for Financial Decision-Making Tasks with LLM-based Agent
  • 저자: Haohang Li, Yupeng Cao, Yangyang Yu 외 (Stevens Institute of Technology, Columbia University, Harvard University)
  • 출판: ACL 2025 / arXiv 2412.18174 (2024.12)

FINCH가 스프레드시트 업무의 자동화를 평가했다면, InvestorBench는 한 단계 더 야심적인 질문을 던진다 -- LLM이 투자 의사결정을 내릴 수 있는가?

FINCH에서 에이전트의 과제는 셀을 채우고, 수식을 검증하고, 서식을 맞추는 것이었다. 답이 틀리면 점수가 깎이지만, 누군가의 자산이 줄어들지는 않는다. InvestorBench가 요구하는 것은 다르다. 매일 아침 시장이 열리면 에이전트는 Buy, Sell, Hold 중 하나를 결정해야 한다. 그 결정은 누적 수익률로 돌아온다. 스프레드시트에서 시장으로 -- 정답이 사후에야 드러나는 영역으로 에이전트를 밀어 넣은 것이다.

이 논문은 Stevens Institute of Technology, Columbia, Harvard의 연구진이 ACL 2025에 발표한 것으로, 3가지 자산 유형(주식, 암호화폐, ETF)에 걸쳐 13개 LLM을 체계적으로 비교한 최초의 포괄적 금융 의사결정 벤치마크다. FinMem, FinAgent, CryptoTrade 같은 기존 금융 에이전트 프레임워크들이 각자의 틈새 -- 단일 주식, 암호화폐, 소규모 포트폴리오 -- 에 한정되어 있었다면, InvestorBench는 이들을 하나의 통합된 평가 무대 위에 올려놓았다. 단순히 모델을 줄 세우는 것이 아니라, 에이전트가 시장 정보를 어떻게 기억하고, 통합하고, 판단하는지를 구조적으로 설계한 점에서 벤치마크 이상의 가치를 가진다.

시장이라는 시험장 -- LLM에게 투자를 맡긴다는 것

금융 시장에서 의사결정을 내리는 것은 오픈북 시험과 비슷하다. 모든 정보가 공개되어 있지만, 그 정보를 어떻게 조합하고 해석하느냐에 따라 결과가 갈린다. OHLCV 가격 데이터, 뉴스 헤드라인, 분기 실적 보고서(10-Q), 연간 보고서(10-K), 시장 감성 지표 -- 전문 투자자가 아침마다 확인하는 이 정보들을 에이전트에게도 동일하게 제공하면, 과연 합리적인 판단이 나오는가?

문제의 본질은 정보의 양이 아니라 정보의 시간적 구조에 있다. 어제 나온 뉴스와 6개월 전에 발표된 연간 보고서는 동일한 가중치를 가져서는 안 된다. 인간 투자자는 이것을 직관적으로 안다 -- 아침에 읽은 실적 서프라이즈 뉴스에는 즉각 반응하지만, 작년 10-K 보고서의 부채 비율은 장기적 관점에서 참조한다. LLM에게 이 시간적 감각을 어떻게 부여할 것인가? InvestorBench의 핵심 설계가 여기서 출발한다.

또 하나의 도전은 순차적 의사결정의 특성이다. 코드 생성 벤치마크에서 각 문제는 독립적이다. 하나를 틀려도 다음 문제에 영향을 주지 않는다. 투자는 다르다. 오늘의 매수 결정이 내일의 포지션을 결정하고, 내일의 포지션이 모레의 선택지를 제약한다. 체스에서 한 수가 나머지 판 전체를 바꾸는 것처럼, 투자에서의 각 결정은 이후 모든 결정의 맥락을 재구성한다.

논문은 이 구조를 무한 기간 POMDP(Partially Observable Markov Decision Process)로 형식화했다. 관찰 가능한 상태(가격, 뉴스)와 관찰 불가능한 상태(시장 심리, 내부자 정보)가 공존하는 환경에서, 에이전트는 할인된 누적 손익(PnL)을 최대화하는 행동 시퀀스를 찾아야 한다. 행동 공간은 {Buy, Sell, Hold}의 세 가지로 단순화했지만, 이 단순한 행동이 매일 반복되면서 만들어내는 궤적의 복잡성은 결코 단순하지 않다.

기억의 계층 -- 에빙하우스를 금융에 이식하다

InvestorBench의 에이전트 아키텍처에서 가장 독창적인 부분은 계층적 장기 메모리(Layered Long-Term Memory)다. 인간의 인지 시스템에서 영감을 받아, 정보의 종류에 따라 감쇠 속도를 다르게 설정한 3개 계층의 벡터 데이터베이스를 구축했다.

계층 반감기 정보 유형 비유
얕은 처리 (Shallow) 14일 일일 뉴스, 시장 감성 아침 신문 -- 읽고 나면 빠르게 잊힌다
중간 처리 (Intermediate) 90일 분기 보고서 (10-Q) 분기 실적 -- 한 분기 동안 유효하다
깊은 처리 (Deep) 365일 연간 보고서 (10-K) 기업 펀더멘털 -- 천천히 변한다

각 메모리 이벤트의 검색 점수는 세 가지 요소의 합성이다. 최근성(에빙하우스 망각 곡선에 기반한 시간 감쇠), 관련성(코사인 유사도로 측정한 현재 맥락과의 부합도), 중요도(계층별 차등 확률과 감쇠 비율의 곱). 얕은 계층의 뉴스는 2주가 지나면 검색 점수가 급격히 떨어지지만, 깊은 계층의 연간 보고서는 1년이 지나도 상당한 영향력을 유지한다.

이 설계가 영리한 이유는 명시적인 시간 필터 대신 연속적 감쇠를 사용했다는 점이다. "3개월 이상 된 뉴스는 무시하라"는 규칙은 경계선에서 정보 손실을 일으킨다. 감쇠 함수는 오래된 정보를 버리지 않고 자연스럽게 영향력을 줄인다. 인간이 "그때 그 기사, 뭐였더라..."하며 희미하게 기억하는 것과 같은 메커니즘이다.

메모리 외에도 에이전트를 구성하는 모듈들이 유기적으로 연결되어 있다.

Profile 모듈은 에이전트를 경험 많은 투자자로 역할 정의하면서, 역사적 시장 모멘텀에 따라 위험 선호를 동적으로 조정한다. 양의 모멘텀이 지속되면 위험 추구적으로, 음의 모멘텀이 지속되면 보수적으로 전환하는 자기 적응적 메커니즘이다. 인간 투자자가 상승장에서 자신감을 갖고 하락장에서 방어적으로 전환하는 심리를 모델링한 것이다.

Perception 모듈은 OHLCV 수치 데이터, 텍스트 뉴스, SEC 공시 문서를 LLM이 처리할 수 있는 구조화된 형식으로 변환한다. 숫자와 텍스트와 문서라는 이질적 형식의 정보를 하나의 프롬프트 안에서 통합하는 번역기 역할이다. Action 모듈은 이 모든 분석을 종합하여 매일 Buy, Sell, Hold 중 하나를 결정한다.

에이전트 아키텍처에는 작업 메모리(Working Memory)도 있다. 즉각적 반성(immediate reflection)과 확장된 반성(extended reflection)의 두 가지 메커니즘으로, 최근 의사결정의 결과를 되돌아보고 다음 결정에 반영한다. "어제 TSLA를 매수했는데 5% 하락했다"는 즉각적 반성이고, "지난 2주간 뉴스 감성에 과잉 반응하여 불필요한 매매를 반복했다"는 확장된 반성이다.

데이터 환경도 실세계를 충실히 반영한다. 주식 시장은 MSFT, JNJ, TSLA, AAPL, HON, UVV, NIO의 7개 종목에 대해 Yahoo Finance의 OHLCV, Alpaca News API의 뉴스, SEC EDGAR의 10-K/10-Q를 통합했다. 테스트 기간은 2020년 7월부터 2021년 5월까지다. 암호화폐 시장은 Bitcoin과 Ethereum에 대해 cryptonews, cryptopotato, cointelegraph 등 다중 소스 뉴스를 수집하여 2023년 4월부터 11월까지 평가했다. ETF 시장은 NIFTY 데이터셋의 뉴스 헤드라인과 감성 데이터를 활용하여 2020년 1월부터 9월까지를 다뤘다. 세 시장이 서로 다른 시기를 다루기 때문에, 시장 레짐의 다양성도 어느 정도 확보된다.

13개 모델의 대결 -- 돈 앞에서 드러나는 격차

InvestorBench는 13개 LLM을 3가지 자산 유형에 걸쳐 평가했다. 독점 모델 3개(GPT-4, GPT-4o, GPT-o1-preview), 금융 특화 모델 1개(Palmyra-Fin-70B), 오픈소스 모델 9개(Qwen2.5-72B부터 Qwen-2.5-7B까지)의 구성이다.

평가 지표는 네 가지다. 누적 수익률(CR)은 전체 투자 기간의 총 성과를, 샤프 비율(SR)은 위험 대비 수익의 효율성을, 연환산 변동성(AV)은 수익률의 불안정성을, 최대 낙폭(MDD)은 최악의 손실 구간을 측정한다. CR이 높아도 MDD가 크면 실전에서 견디기 어렵고, SR이 높아도 AV가 높으면 결과의 일관성을 신뢰하기 어렵다. 네 지표를 함께 봐야 전체 그림이 보인다.

주식 트레이딩 결과에서 가장 두드러진 패턴은 독점 모델의 우위다.

모델 주식 CR 주식 SR 암호화폐 CR ETF CR
GPT-o1-preview 상위권 상위권 상위권 상위권
GPT-4 상위권 상위권 상위권 상위권
GPT-4o 상위권 상위권 상위권 상위권
Qwen2.5-72B 중상위 중상위 중상위 중상위
Llama-3.1-70B 중위권 중위권 중위권 중위권
Palmyra-Fin-70B 중위권 중위권 중위권 중위권
DeepSeek-67B 중위권 중하위 중위권 중하위
Yi-1.5-34B 중하위 중하위 하위권 중하위
Qwen2.5-32B 중하위 중하위 하위권 중하위
Llama-3.1-8B 하위권 하위권 하위권 하위권
Qwen-2.5-7B 하위권 하위권 하위권 하위권

세 가지 핵심 발견이 있다.

첫째, 독점 모델이 모든 자산 유형에서 일관되게 상위권을 차지했다. 특히 혼합 시장 조건 -- TSLA와 NIO처럼 급등과 급락이 번갈아 나타나는 종목 -- 에서 격차가 벌어졌다. GPT-4와 GPT-o1이 역사적 모멘텀, 현재 포지션, 자기 반성 결과를 효과적으로 종합하여 노이즈 속에서 신호를 포착한 반면, 소규모 오픈소스 모델들은 뉴스 감성에 과잉 반응하거나 가격 추세에 후행하는 경향을 보였다.

둘째, 모델 크기가 금융 의사결정 품질과 비례했다. 오픈소스 진영 내에서 67B 이상 모델이 30B 이하 모델 대비 유의미하게 높은 CR과 SR을 보였고, 결과의 분산도 현저히 낮았다. 순차적 의사결정이 단순한 패턴 매칭이 아니라 다중 정보원의 복잡한 추론을 요구하기 때문이다. 작은 모델은 개별 정보를 처리할 수 있지만, 여러 정보를 동시에 고려하여 일관된 판단을 내리는 능력이 부족했다.

셋째, 금융 특화 파인튜닝이 의사결정에서는 결정적 이점을 제공하지 않았다. Palmyra-Fin-70B는 금융 맥락으로 광범위하게 파인튜닝되었지만, 같은 크기의 범용 모델과 비교하여 순차적 트레이딩에서 뚜렷한 우위를 보이지 못했다. 재무 보고서 분석이나 용어 이해에 최적화된 훈련이 실시간 의사결정 능력으로 직결되지 않는다는 것이다. 금융 용어를 잘 안다고 해서 돈을 잘 버는 것은 아닌 셈이다. 이것은 도메인 지식과 의사결정 능력이 별개의 역량임을 시사하며, 금융 AI의 훈련 전략에 대한 중요한 질문을 제기한다.

암호화폐와 ETF 시장에서도 패턴은 유사했다. 암호화폐는 뉴스와 감성에 더 민감한 시장 특성상, 대형 모델의 텍스트 이해 능력이 더 큰 차이를 만들었다. 중소형 오픈소스 모델은 단순한 Buy & Hold 전략보다도 낮은 수익률을 기록했다 -- 아무것도 하지 않는 것이 작은 모델의 판단보다 나았다는 뜻이다.

ETF 시장에서는 다양한 섹터에 걸친 복합적 분석이 필요했기에, 풍부한 사전 훈련 지식을 보유한 독점 모델의 이점이 더 두드러졌다. ETF는 개별 종목과 달리 산업 전반의 동향을 종합적으로 이해해야 하므로, 넓은 지식 기반이 곧 의사결정 품질로 연결된 것이다.

백테스트의 그림자 -- InvestorBench가 증명하지 못한 것들

벤치마크의 결과가 인상적일수록, 그 결과가 증명하지 못한 것들에 대해 냉정해야 한다. 금융에는 오래된 경구가 있다 -- "과거 수익률이 미래 수익률을 보장하지 않는다." 이 경고는 인간 펀드매니저뿐 아니라 LLM 에이전트에게도 동일하게 적용된다.

가장 근본적인 한계는 백테스팅과 실시간 트레이딩의 간극이다. InvestorBench의 모든 실험은 과거 데이터에 대한 시뮬레이션이다. 2020년 7월부터 2021년 5월까지의 주식 데이터를 사용했는데, 이 기간은 코로나 이후 회복기로 대부분의 자산이 상승한 시기다. 상승장에서의 Buy/Hold 결정은 하락장에서의 Sell 결정보다 구조적으로 쉽다. 시장 레짐(regime)이 바뀌었을 때 에이전트가 동일한 성능을 유지할 수 있는지는 미지수다.

생존자 편향(survivorship bias)도 존재한다. 테스트에 사용된 종목 -- MSFT, AAPL, JNJ -- 은 모두 대형 우량주다. 이 종목들에 대해서는 풍부한 뉴스와 분석 자료가 존재하고, LLM의 사전 훈련 데이터에도 대량 포함되어 있을 가능성이 높다. 소형주, 신흥 시장, 유동성이 낮은 자산에서의 성능은 완전히 다를 수 있다.

논문 자체가 인정하는 한계도 있다. 현재 벤치마크는 단일 자산 의사결정에 초점을 맞추고 있어, 포트폴리오 수준의 자산 배분이나 리밸런싱은 평가하지 않는다. 실제 투자에서는 "AAPL을 살 것인가"가 아니라 "AAPL과 MSFT 중 어디에 비중을 더 둘 것인가"가 더 중요한 질문인 경우가 많다.

또한 거래 비용, 슬리피지, 시장 충격 같은 실행 마찰(execution friction)이 모델에 반영되지 않았다. 백테스트에서의 수익이 실거래에서 그대로 실현되지 않는 가장 큰 이유 중 하나가 바로 이 실행 비용이다. 일일 Buy/Sell/Hold를 결정하는 에이전트가 매일 포지션을 전환한다면, 그 거래 비용만으로도 수익의 상당 부분이 사라질 수 있다.

마지막으로, LLM의 사전 훈련 데이터와 테스트 기간의 중첩 가능성도 고려해야 한다. 2020-2021년의 시장 데이터와 뉴스는 대형 LLM의 훈련 데이터에 포함되어 있을 가능성이 높다. 에이전트가 진정으로 실시간 추론을 하는 것인지, 아니면 훈련 데이터에서 본 패턴을 재현하는 것인지를 구분하기 어렵다는 것이다. 이것은 InvestorBench만의 문제가 아니라, 과거 데이터 기반 금융 벤치마크 전반이 안고 있는 구조적 과제다.

2026년의 시선 -- 금융 에이전트의 현재 좌표

논문이 발표된 2024년 12월 이후, 금융 AI 에이전트 영역은 빠르게 움직였다. 벤치마크 논문의 운명은 흥미롭다 -- 발표 시점의 순위표는 빠르게 구식이 되지만, 평가 프레임워크 자체는 오히려 시간이 갈수록 가치가 높아진다.

InvestorBench가 제안한 계층적 메모리의 아이디어는 금융을 넘어 다양한 에이전트 시스템에 영향을 주었다. 정보의 종류에 따라 감쇠율을 다르게 설정한다는 개념은, 이 시리즈의 앞선 논문들 -- CoALA의 메모리 분류, MemGPT의 가상 메모리 관리 -- 의 연장선에 있으면서도, 금융이라는 도메인의 시간적 구조를 명시적으로 인코딩했다는 점에서 한 걸음 나아갔다. 고객 서비스, 의료 진단, 법률 분석 등 시간에 따라 정보의 가치가 달라지는 도메인이라면, 유사한 계층적 감쇠 메모리가 유효할 수 있다.

독점 모델의 우위라는 발견은 2026년 현재의 지형에서 재해석이 필요하다. 논문 당시의 오픈소스 모델은 Llama-3.1과 Qwen-2.5 세대였다. 그 이후 등장한 오픈소스 모델들의 추론 능력은 비약적으로 향상되었고, 금융 의사결정처럼 복잡한 순차적 추론에서의 격차도 상당 부분 좁혀졌을 가능성이 있다. 특히 추론 특화 모델(reasoning model)의 등장은, 다중 정보원을 종합하여 판단을 내리는 금융 의사결정과 자연스럽게 맞닿는다. InvestorBench가 제공하는 표준화된 평가 프레임워크 위에서 최신 모델들을 다시 비교하는 것은 의미 있는 후속 연구가 될 것이다.

금융 에이전트의 가장 큰 미해결 과제는 여전히 신뢰성이다. 백테스트 성능이 아무리 좋아도, 실시간 시장에서의 검증 없이는 실전 배치가 어렵다. 실시간 시장에는 백테스트에 없는 변수들이 존재한다 -- 유동성 부족으로 원하는 가격에 체결되지 않는 상황, 갑작스러운 거래 중단, 플래시 크래시 같은 극단적 이벤트.

규제 환경도 변수다. AI가 내린 투자 결정에 대한 법적 책임 소재, 알고리즘 트레이딩에 대한 규제 강화는 기술적 성능과는 별개의 문을 넘어야 하는 과제다. 에이전트가 아무리 높은 샤프 비율을 기록해도, 그 결정의 근거를 설명할 수 없다면 규제 당국의 승인을 받기 어렵다.

그럼에도 InvestorBench가 열어놓은 방향은 유효하다. 표준화된 벤치마크가 존재해야 모델 간 공정한 비교가 가능하고, 공정한 비교가 가능해야 실질적 개선이 측정된다. 금융 에이전트 연구가 "우리 모델이 잘 된다"는 개별 주장에서 "어떤 조건에서 어떤 모델이 왜 더 나은가"라는 체계적 이해로 나아가기 위한 기반이다.

논문이 제시한 두 가지 참여 모드도 주목할 만하다. 첫째, 연구자가 자신의 파인튜닝된 LLM을 InvestorBench의 에이전트 프레임워크에 통합하여 평가하는 모드. 둘째, 자체 설계한 에이전트에 InvestorBench의 환경과 평가 지표를 적용하여 비교하는 모드. 벤치마크를 닫힌 경쟁이 아니라 열린 플랫폼으로 설계한 것이다.

마무리

한 문장으로 줄이면 이렇다: "LLM은 금융 의사결정이라는 오픈북 시험에서 아직 초보 투자자 수준이지만, 기억의 구조를 바꾸면 성적이 달라진다."

이 논문이 벤치마크로서 남긴 가장 중요한 유산은 숫자 자체가 아니라, 금융 의사결정 에이전트를 평가하는 표준화된 틀을 제공했다는 점이다. 13개 모델의 순위는 시간이 지나면 바뀌지만, "3가지 자산 유형 x 4가지 평가 지표 x 다중 소스 데이터 환경"이라는 평가 프레임워크는 후속 연구의 기준선이 된다. 그리고 계층적 메모리라는 설계 원칙은 금융을 넘어, 시간적 구조를 가진 모든 정보 환경에서 에이전트의 기억을 설계하는 참조점이 된다.

시리즈의 궤적을 돌아보면, FINCH는 "에이전트가 정형화된 금융 업무를 수행할 수 있는가"를 물었고, InvestorBench는 "에이전트가 불확실성 속에서 금융 판단을 내릴 수 있는가"로 질문을 한 단계 높였다. 스프레드시트의 정답은 하나지만, 시장의 정답은 내일에야 드러난다. 두 벤치마크가 함께 그리는 그림은, 금융 AI가 아직 갈 길이 멀지만 측정 가능한 방향으로 움직이고 있다는 것이다.

다음 글에서는 금융 AI를 떠나, AI 시스템의 안전성으로 넘어간다. 에이전트가 강력해질수록 중요해지는 질문이 있다 -- 에이전트가 잘못된 행동을 하지 않도록 어떻게 보장하는가? 투자 의사결정을 내리는 에이전트라면, 그 판단의 안전성은 수익률만큼이나 중요하다. Constitutional AI -- 원칙 기반 자기 개선으로 유해한 출력을 제어하는 Anthropic의 접근을 읽는다.


이 글은 "Agentic AI 논문 읽기" 시리즈의 스무 번째 글입니다. 시리즈 전체 목록은 시리즈 페이지에서 확인할 수 있습니다.

Copyright ⓒ 2026 Theo All rights reserved.

Created by @Theo. Powered By @Vallista-land