시리즈의 글 (25개)
- Agentic AI 논문 읽기: CoALA — 언어 에이전트를 위한 인지 아키텍처
- Agentic AI 논문 읽기: ReAct — 생각과 행동을 엮은 최초의 패턴
- Agentic AI 논문 읽기: CoT — 생각의 사슬이 추론을 깨운 순간
- Agentic AI 논문 읽기: Toolformer — 언어 모델이 스스로 도구를 잡은 순간
- Agentic AI 논문 읽기: AutoGen — 대화로 엮는 다중 에이전트 시스템
- Agentic AI 논문 읽기: MetaGPT — SOP로 설계한 다중 에이전트 조직
- Agentic AI 논문 읽기: Multi-Agent Survey — 집단 지능의 지도를 펼치다
- Agentic AI 논문 읽기: Reflexion — 실패를 언어로 되감는 에이전트
- Agentic AI 논문 읽기: LATS — 트리 탐색으로 추론과 행동을 통합하다
- Agentic AI 논문 읽기: ETO — 실패 궤적으로 에이전트를 훈련하다
- Agentic AI 논문 읽기: AI Agents That Matter — 벤치마크의 함정을 파헤치다
- Agentic AI 논문 읽기: Paradigms — 도구 사용·계획·피드백의 삼각 구도
- Agentic AI 논문 읽기: Halo — DAG로 에이전트 워크플로우를 최적화하다
- Agentic AI 논문 읽기: Tool Use Evolution — 단일 도구에서 다중 오케스트레이션까지
- Agentic AI 논문 읽기: BloombergGPT — 금융 특화 대규모 언어 모델의 탄생
- Agentic AI 논문 읽기: FinGPT — 오픈소스 금융 LLM 프레임워크
- Agentic AI 논문 읽기: ₩on — 한국어 금융 NLP의 첫 번째 벤치마크
- Agentic AI 논문 읽기: DocLLM — 레이아웃 인식 문서 이해 모델
- Agentic AI 논문 읽기: FINCH — 스프레드시트 중심 재무 벤치마크
- Agentic AI 논문 읽기: InvestorBench — 금융 의사결정 에이전트 벤치마크
- Agentic AI 논문 읽기: Constitutional AI — 원칙 기반 자기 개선
- Agentic AI 논문 읽기: RLHF의 한계 — 인간 피드백 강화학습의 미해결 과제
- Agentic AI 논문 읽기: Autonomous Agents Survey — 자율 에이전트 구축의 해부도
- Agentic AI 논문 읽기: Rise and Potential — 뇌·지각·행동으로 본 에이전트 전망
- Agentic AI 논문 읽기: A-MEM — 제텔카스텐에서 영감받은 에이전트 기억 시스템
논문 정보
- 제목: FINCH: Benchmarking Finance & Accounting across Spreadsheet-Centric Enterprise Workflows
- 저자: Haoyu Dong 외 (University of Chinese Academy of Sciences, Harvest Fund, Hugging Face 등)
- 출판: arXiv 2512.13168 (2025.12)
지난 글에서 DocLLM을 읽었다. 바운딩 박스 좌표만으로 문서의 공간 레이아웃을 이해하는 경량 접근이었다. 송장 위의 숫자가 "매출" 옆에 있는지 "비용" 옆에 있는지를 구분하는 능력 — 문서 이해(document understanding)의 기초 체력이다.
그런데 현실의 금융 실무자에게 물어보면, 문서를 "이해"하는 것은 업무의 시작일 뿐이다. 이해한 다음에는 스프레드시트를 열어야 한다. 숫자를 입력하고, 수식을 걸고, 시트 간 참조를 연결하고, 검증하고, 차트를 그리고, 보고서를 쓴다. 문서 이해가 눈이라면, 스프레드시트 조작은 손이다. 눈이 아무리 좋아도 손이 움직이지 않으면 일은 끝나지 않는다.
FINCH는 바로 그 손의 능력을 측정한다. AI 에이전트가 실세계 엔터프라이즈 스프레드시트 워크플로우를 실제로 수행할 수 있는지를 묻는, 금융·회계(F&A) 벤치마크다.
포장도로 위의 시험 — AI 코딩 벤치마크의 맹점
HumanEval 91%, SWE-bench 40% — AI 에이전트의 코딩 능력은 매년 경신된다. 이 숫자를 보면 AI가 곧 모든 지식 노동을 대체할 것 같다. 하지만 이 벤치마크들은 포장도로 위의 주행 시험과 같다. 평탄하고, 규칙적이고, 경계가 분명하다. 코드에는 문법이 있고, 테스트에는 통과 기준이 있다.
실세계 엔터프라이즈 업무는 비포장도로다. 세계에서 가장 많이 쓰이는 업무 도구 — 스프레드시트 — 를 생각해보라. 병합된 셀, 중첩된 헤더, 시트 91개짜리 워크북, 암호 같은 열 이름, 숨겨진 수식에 인코딩된 비즈니스 로직. 문법이 없다. 관행만 있다. 같은 회사 안에서도 부서마다, 사람마다 스프레드시트를 다르게 만든다. 이 지저분함(messiness)이 실세계의 본질이다.
기존 스프레드시트 벤치마크들 — SheetCopilot, SpreadsheetBench, SheetAgent — 이 존재했지만, 이들은 대부분 단일 과제나 인공적으로 구성된 시나리오에 집중했다. 실제 기업에서 일어나는 것처럼, 데이터 입력부터 계산, 검증, 시각화, 보고까지 한 워크플로우 안에서 연쇄적으로 일어나는 복합 과제를 평가하지는 못했다. FINCH의 저자들이 던지는 질문은 직설적이다 — 오늘날의 프론티어 AI 에이전트가 전문가들이 매일 직면하는 지저분하고, 장기적이며, 지식 집약적인 워크플로우를 실제로 처리할 수 있는가?
Enron의 유산에서 벤치마크를 캐다 — 데이터셋 구축
FINCH의 데이터는 인공적으로 만들어진 것이 아니다. 2001년 파산한 에너지 기업 Enron의 실제 업무 기록에서 왔다. Enron 이메일 코퍼스는 약 15,000개 스프레드시트와 150명 직원의 500,000개 이메일을 담고 있다. 20여 년 전의 기업이 남긴 디지털 유산이, 2025년 AI 벤치마크의 원석이 된 셈이다.
데이터셋 구축은 네 가지 경로로 이루어졌다. 첫째, 이메일 스레드에서 워크플로우를 발굴했다. GPT-5를 활용하여 비즈니스 목표를 명시하고 스프레드시트를 참조하는 협업 메시지를 식별한 뒤, 전문가가 검증했다. 둘째, 버전화된 스프레드시트에서 워크플로우를 추론했다. 같은 워크북의 다른 버전을 비교하여, 어떤 작업이 수행되었는지를 역추적했다. 셋째, 최종 산출물에서 역으로 워크플로우를 구성했다. 투자은행, 세계은행, 캐나다/영국 정부의 고품질 스프레드시트와 보고서를 활용했다. 넷째, 모든 워크플로우에 대해 주석자 간 교차 검증과 LLM 보조 품질 관리를 수행했다.
최종 결과물은 172개 복합 워크플로우다. 384개 과제, 1,710개 스프레드시트, 2,700만 셀, 그리고 PDF, 이미지, Word 문서 등 다양한 아티팩트를 포함한다. 700시간 이상의 도메인 전문가 노력이 투입되었다. 과제는 10가지 유형으로 분류된다.
| 과제 유형 | 워크플로우 수 | 설명 |
|---|---|---|
| Calculation | 119 | 수식 채우기, 순자산 계산, 집계 등 |
| Structuring/Formatting | 86 | 테이블 재구성, 계층 조정, 셀 포맷팅 |
| Data Entry/Import | 44 | 스프레드시트/PDF/이미지에서 데이터 전사 |
| Validation/Review | 37 | 일관성 검사, 계산 조정, 오류 검출 |
| Cross-sheet/file Retrieval | 36 | 다수 시트/파일에서 값 검색 및 참조 |
| Summary/Visualization | 33 | 요약 테이블이나 차트로 인사이트 도출 |
| Financial Modeling | 15 | 밸류에이션, 시나리오 분석, 타이밍 모델 |
| Web Search | 11 | 웹에서 금융 데이터 수집 후 스프레드시트 통합 |
| Report | 10 | 분석 결과를 문서 형태로 정리 |
| Translation | 3 | 구조/포맷 보존하며 언어 변환 |
이 과제들은 독립적이지 않다. 78.5%의 워크플로우가 2개 이상의 과제를 결합한 복합 워크플로우다. 데이터를 입력하고, 수식을 걸고, 교차 참조로 검증하고, 차트를 그리는 — 실제 업무의 흐름 그대로다. 86.6%가 다수 파일을 포함하고, 92.4%가 다중 시트(평균 8시트, 최대 91시트)로 구성된다. 셀 수의 중간값은 15,000개이며, 최대는 370만 셀에 달한다.
비즈니스 도메인도 다양하다. 보고(48개), 트레이딩/리스크(35개), 운영 관리(36개), 예측 모델링(33개), 예산/계획(26개), 가격/밸류에이션(15개), 매출채권/매입채무(10개), 조달/자산관리(10개) 등 8개 도메인을 포괄한다. 에너지 트레이딩에서 예산 편성까지, 금융·회계의 전 스펙트럼을 아우르는 것이다.
난이도 역시 단순한 분류가 아니라, 과제의 복합도와 데이터의 규모에 의해 자연스럽게 결정된다. 과제가 하나인 워크플로우와 다섯 개인 워크플로우는 질적으로 다른 도전이다. 또한 스프레드시트 자체의 멀티모달성도 난이도에 기여한다. 20.3%가 내장 차트를 포함하고, 10.5%가 PDF나 이미지 등 비스프레드시트 아티팩트와 연결되어 있다.
최전선의 성적표 — 벤치마크 결과
FINCH는 프론티어 AI 시스템을 두 가지 방식으로 평가했다. 프로덕트 사이드 에이전트(ChatGPT 5.1 Pro, Claude Sonnet 4.5)는 파일 업로드와 반복적 도구 호출이 가능한 환경에서 테스트되었다. 스프레드시트를 직접 검사하고, 중간 결과를 확인하고, 오류가 발생하면 수정을 시도할 수 있다. API 기반 모델(GPT 5.1, Gemini 3 Pro, Grok 4, Qwen3 Max 등)은 단일 호출로 Python 스크립트를 생성하여 스프레드시트를 직접 조작하는 방식이다. 반복적 정제 없이 한 번에 답을 내야 하므로, 조건이 훨씬 가혹하다.
평가는 인간 전문가의 pass/fail 판정과 LLM-as-Judge 자동 평가를 병행했다. 자동 평가의 인간 판단 일치율은 GPT 5.1 Pro 기준 82.1%, Claude Sonnet 4.5 기준 90.2%로, 합리적인 수준이다.
전체 통과율은 다음과 같다.
| 에이전트 | 유형 | 통과율 (인간 평가) |
|---|---|---|
| GPT 5.1 Pro | Product | 38.4% |
| GPT 5.1 | API | 32.0% |
| Gemini 3 Pro Preview | API | 27.3% |
| Claude Sonnet 4.5 | Product | 25.0% |
| Grok 4 | API | 23.8% |
| Claude Sonnet 4.5 | API | 20.3% |
| Qwen3 Max | API | 14.5% |
최고 성능인 GPT 5.1 Pro도 40%를 넘지 못한다. 워크플로우당 평균 16.8분을 소비하면서도 이 수준이다. Claude Sonnet 4.5는 프로덕트 모드에서 25.0%, API 모드에서 20.3%에 그쳤다. 오픈소스 진영의 Qwen3 Max는 14.5%로, 프론티어 독점 모델과의 격차가 뚜렷하다.
복합 워크플로우에서의 성능 저하는 더 극적이다.
| 과제 수 | 워크플로우 수 | GPT 5.1 Pro 통과율 | 평균 소요 시간(분) |
|---|---|---|---|
| 1 | 37 | 48.6% | 13.1 |
| 2 | 84 | 42.4% | 17.4 |
| 3 | 33 | 33.3% | 18.7 |
| 4 | 10 | 0% | 21.3 |
| 5 | 8 | 12.5% | 13.6 |
과제가 2개를 초과하면 통과율이 급락한다. 4개 과제가 결합된 워크플로우에서는 GPT 5.1 Pro조차 통과율 0%다. 단계 간 오류 누적(error cascading)이 다단계 실행을 불균형적으로 해친다는 것을 보여준다. 한 단계에서의 작은 실수가 다음 단계로 전파되면서 전체 워크플로우를 무너뜨리는 것이다.
과제 유형별로 보면, Data Entry/Import와 Structuring/Formatting이 일관되게 가장 어려웠다. 지저분한 레이아웃과 비자명한 구조적 제약을 이해해야 하기 때문이다. Translation은 의외로 극도로 저조한 성적을 보였다. 단순히 텍스트를 번역하는 것이 아니라, 금융 문맥에서 헤더 계층, 행/열 정렬, 레이아웃 단서를 보존해야 하기 때문이다. 구조를 해치지 않고 번역하는 것은 번역이 아니라 재구성에 가깝다.
프로덕트 사이드와 API 기반의 성능 차이도 주목할 만하다. 같은 GPT 5.1이라도 프로덕트 모드(38.4%)가 API 모드(32.0%)보다 6.4%p 높다. Claude Sonnet 4.5도 프로덕트(25.0%)가 API(20.3%)를 4.7%p 앞선다. 반복적 실행과 중간 검사가 가능한 환경이 단일 호출보다 우월하다는 것은 직관적이지만, 그 차이가 이 정도에 그친다는 것은 — 반복 기회를 줘도 근본적인 한계는 크게 변하지 않는다는 뜻이기도 하다.
오류 분석에서 가장 지배적인 실패 원인은 수식 추론 오류(35%)였다. 스프레드시트 수식에 인코딩된 잠재적 비즈니스 로직을 모델이 재구성하지 못하는 것이다. 예를 들어, "IF NGPL MidContinent index (@ Baker)"라는 헤더가 일일 노출 지표처럼 보이지만, 관련 수식(25 * V21 + C41 * C22)은 실제로 55일 결제 타이밍을 인코딩하고 있다. 표시된 값과 숨겨진 로직 사이의 괴리를 파악하는 것이, 현재 LLM에게는 가장 큰 벽이다. 데이터 검색 오류(25%)와 코드 생성 오류(25%)가 그 뒤를 이었고, 과제 오해(10%)와 데이터 렌더링 오류(5%)가 나머지를 차지했다.
돋보기 아래의 균열 — 한계
FINCH의 기여는 분명하지만, 벤치마크 자체의 한계도 인식해야 한다.
첫째, 데이터의 시대적 특수성이다. Enron은 2001년에 파산한 에너지 기업이다. 그 스프레드시트는 20여 년 전의 업무 관행을 반영한다. 현재의 기업들이 사용하는 스프레드시트 — 클라우드 기반 협업, 실시간 데이터 연동, 매크로와 VBA 대신 Python 통합 — 와는 상당한 거리가 있을 수 있다. 세계은행이나 정부 자료로 일부 보완했지만, Enron 중심이라는 편향은 남아 있다.
둘째, 영어 중심이다. 글로벌 기업의 F&A 워크플로우는 다국어 환경에서 이루어지지만, FINCH는 영어가 지배적이다. 캐나다 정부 자료에 일부 프랑스어가 포함되어 있을 뿐이다.
셋째, API 기반 평가가 단일 LLM 호출로 제한되었다. 반복적 상호작용이나 자기 수정 없이 한 번에 Python 스크립트를 생성해야 하는 조건은, 실제 에이전틱 워크플로우와 거리가 있다. 프로덕트 사이드 에이전트(ChatGPT, Claude)는 반복적 도구 호출이 가능했기에 더 나은 성적을 보였지만, 이것이 모델 능력의 차이인지 인터페이스의 차이인지를 완전히 분리하기 어렵다.
넷째, LLM-as-Judge 자동 평가의 한계다. 인간 판단과의 일치율이 82~90%로 양호하지만, 미묘한 시각적 오류나 수식이 정적 값으로 대체되는 오류를 감지하기 어렵다는 점이 보고되었다. 수식 대신 하드코딩된 값이 들어간 셀은 겉보기에 정답이지만, 입력이 바뀌면 틀린 답이 된다. 이런 종류의 "깨지기 쉬운 정답"을 자동으로 잡아내는 것은 여전히 미해결 과제다.
2026년의 시선 — 스프레드시트와 엔터프라이즈 AI의 현실
2026년 4월 현재, 엔터프라이즈 AI 도입은 가속화되고 있다. Microsoft Copilot은 Excel에 깊이 통합되었고, Google Sheets에도 Gemini가 내장되었다. 스타트업부터 대기업까지, CFO와 재무팀에게 "AI가 스프레드시트를 대신 해준다"는 마케팅 메시지가 쏟아진다. 벤더들의 데모는 항상 단일 과제다 — 데이터를 정리하거나, 차트를 그리거나, 수식을 제안하거나. 깔끔한 데이터 위의 깔끔한 작업이다.
그런데 FINCH의 숫자를 다시 보라. 38.4%. 가장 강력한 프론티어 모델이, 16.8분을 쓰고도, 열 개 중 여섯 개의 워크플로우에서 실패한다. 단일 과제라면 절반 가까이 성공하지만, 과제가 복합되는 순간 성공률이 급락한다. 실세계 업무는 거의 항상 복합이다.
이 격차가 의미하는 것은 무엇인가? AI가 스프레드시트 업무에 쓸모없다는 뜻이 아니다. 단일 계산, 단순 포맷팅, 기본적인 데이터 입력에서 AI는 이미 실질적인 생산성 향상을 제공한다. 하지만 "AI가 재무 분석가를 대체한다"는 서사와 현실 사이에는 여전히 깊은 간극이 있다. 핵심은 복합성이다. 실세계 워크플로우의 지저분함과 장기성과 다단계 추론이 결합될 때, 현재의 AI는 한계를 드러낸다.
FINCH가 시사하는 현실적 전략은, AI Agents That Matter가 제기한 질문과 맞닿는다. "벤치마크가 실세계를 반영하는가?" FINCH의 과제들은 실제 기업 데이터에서 왔고, 실제 업무 프로세스를 반영한다. 이 벤치마크에서 40%도 넘지 못한다는 사실은, 엔터프라이즈 AI가 인간 전문가의 보조(augmentation)로서 가치를 제공하되, 완전한 자동화(automation)는 아직 먼 이야기임을 말해준다.
한 가지 더 주목할 점이 있다. FINCH 논문이 발표된 2025년 12월 이후, GPT 5.1이나 Claude Sonnet 4.5 같은 프론티어 모델의 추론 능력은 분명 향상되었다. 하지만 벤치마크의 핵심 교훈 — 복합 워크플로우에서의 급격한 성능 저하 — 은 단순히 모델을 더 크게 만든다고 해결되는 문제가 아니다. 오류 누적은 모델의 크기가 아니라 아키텍처와 워크플로우 설계의 문제이기 때문이다.
논문의 오류 분석이 제시한 다섯 가지 실패 속성 — 대규모 분절된 스프레드시트 생태계, 의미적으로 동질적인 금융 콘텐츠, 불규칙한 테이블 레이아웃, 수식에 잠재된 비즈니스 로직, 멀티모달 아티팩트 — 은 개별적으로는 모델이 합리적으로 대처할 수 있는 수준이다. 하지만 이들이 동일한 워크플로우 안에서 동시에 발생할 때, 그 복합(composition)이 성능을 급격히 떨어뜨린다. 개별 요소의 난이도를 합산한 것 이상의, 비선형적인 어려움이 생긴다. 이것이 실세계 엔터프라이즈 업무의 본질적 특성이며, 포장도로 위의 벤치마크가 포착하지 못하는 지점이다.
마무리
한 문장으로 줄이면 이렇다: "실세계 스프레드시트 워크플로우는 현재 최강의 AI에게도 40% 벽이며, 그 벽의 본질은 단일 과제가 아니라 과제들의 복합에 있다."
FINCH가 기업 내부의 업무 자동화를 평가했다면, 다음 글에서는 시선을 기업 바깥으로 돌린다. InvestorBench — 주식, 암호화폐, ETF에 걸쳐 LLM의 투자 의사결정 능력을 평가하는 벤치마크를 읽는다.
이 글은 "Agentic AI 논문 읽기" 시리즈의 열아홉 번째 글입니다. 시리즈 전체 목록은 시리즈 페이지에서 확인할 수 있습니다.