Agentic AI 논문 읽기: ₩on — 한국어 금융 NLP의 첫 번째 벤치마크

Written by Theo2026년 4월 6일 · 9 min read

시리즈의 글 (25개)

  1. Agentic AI 논문 읽기: CoALA — 언어 에이전트를 위한 인지 아키텍처
  2. Agentic AI 논문 읽기: ReAct — 생각과 행동을 엮은 최초의 패턴
  3. Agentic AI 논문 읽기: CoT — 생각의 사슬이 추론을 깨운 순간
  4. Agentic AI 논문 읽기: Toolformer — 언어 모델이 스스로 도구를 잡은 순간
  5. Agentic AI 논문 읽기: AutoGen — 대화로 엮는 다중 에이전트 시스템
  6. Agentic AI 논문 읽기: MetaGPT — SOP로 설계한 다중 에이전트 조직
  7. Agentic AI 논문 읽기: Multi-Agent Survey — 집단 지능의 지도를 펼치다
  8. Agentic AI 논문 읽기: Reflexion — 실패를 언어로 되감는 에이전트
  9. Agentic AI 논문 읽기: LATS — 트리 탐색으로 추론과 행동을 통합하다
  10. Agentic AI 논문 읽기: ETO — 실패 궤적으로 에이전트를 훈련하다
  11. Agentic AI 논문 읽기: AI Agents That Matter — 벤치마크의 함정을 파헤치다
  12. Agentic AI 논문 읽기: Paradigms — 도구 사용·계획·피드백의 삼각 구도
  13. Agentic AI 논문 읽기: Halo — DAG로 에이전트 워크플로우를 최적화하다
  14. Agentic AI 논문 읽기: Tool Use Evolution — 단일 도구에서 다중 오케스트레이션까지
  15. Agentic AI 논문 읽기: BloombergGPT — 금융 특화 대규모 언어 모델의 탄생
  16. Agentic AI 논문 읽기: FinGPT — 오픈소스 금융 LLM 프레임워크
  17. Agentic AI 논문 읽기: ₩on — 한국어 금융 NLP의 첫 번째 벤치마크
  18. Agentic AI 논문 읽기: DocLLM — 레이아웃 인식 문서 이해 모델
  19. Agentic AI 논문 읽기: FINCH — 스프레드시트 중심 재무 벤치마크
  20. Agentic AI 논문 읽기: InvestorBench — 금융 의사결정 에이전트 벤치마크
  21. Agentic AI 논문 읽기: Constitutional AI — 원칙 기반 자기 개선
  22. Agentic AI 논문 읽기: RLHF의 한계 — 인간 피드백 강화학습의 미해결 과제
  23. Agentic AI 논문 읽기: Autonomous Agents Survey — 자율 에이전트 구축의 해부도
  24. Agentic AI 논문 읽기: Rise and Potential — 뇌·지각·행동으로 본 에이전트 전망
  25. Agentic AI 논문 읽기: A-MEM — 제텔카스텐에서 영감받은 에이전트 기억 시스템

Agentic AI 논문 읽기: ₩on — 한국어 금융 NLP의 첫 번째 벤치마크

논문 정보

  • 제목: ₩on: Establishing Best Practices for Korean Financial NLP
  • 저자: Guijin Son, Hyunwoo Ko, Hanearl Jung, Chami Hwang (OneLineAI, 한국거래소)
  • 출판: arXiv 2503.17963 (2025.03)

지난 글에서 다룬 FinGPT는 오픈소스와 경량 파인튜닝으로 금융 LLM을 민주화하려는 프레임워크였다. BloombergGPT가 독점한 길을 열었고, 300달러의 LoRA 파인튜닝으로 감성 분석에서 ChatGPT를 넘어섰다. 하지만 FinGPT의 세계에서 한국어는 존재하지 않았다. 데이터도 영어와 중국어 중심이었고, 벤치마크도 영어 금융 과제에 맞춰져 있었다. 한국어 금융은 지도 위에 그려지지 않은 영역이었다.

이 부재는 단순한 번역의 문제가 아니다. 한국은 K-IFRS라는 고유한 회계 기준을 채택하고 있고, 금융위원회의 규제 체계와 한국거래소의 시장 구조는 미국이나 유럽과 다르다. "화폐의 시간가치에 관한 설명으로 옳지 않은 것은?" 같은 한국 금융 시험 문항을 영어 벤치마크를 번역해서 만들 수는 없다. 한국 금융을 평가하려면 한국 금융의 언어와 제도에서 태어난 벤치마크가 필요하다.

BloombergGPT는 영어 금융 데이터에 집중했고, FinGPT는 영어와 중국어 금융 데이터에 집중했다. 한국회계기준원(KIFRS), 금융위원회, 한국은행 — 한국 금융의 핵심 기관들이 생산하는 데이터로 LLM을 평가하거나 훈련한 체계적 연구는 2025년 3월 이전까지 부재했다. 한국어라는 언어적 특수성과 한국 금융이라는 제도적 특수성이 교차하는 지점에, 기존 연구는 닿지 못하고 있었다.

2025년 3월, OneLineAI와 한국거래소의 연구팀이 이 공백을 메운다. 5,500개 문항의 벤치마크, 80,000건의 인스트럭션 데이터셋, 그리고 한국 금융 특화 추론 모델까지 — 한국어 금융 NLP의 좌표계를 처음으로 그린 연구다.

번역으로는 닿을 수 없는 땅 — 한국어 금융 벤치마크의 필요성

외국어를 잘 아는 사람이 반드시 그 나라의 세법에 밝은 것은 아니다. 금융 NLP도 마찬가지다. 영어 금융 벤치마크를 한국어로 옮기면, 언어적으로는 한국어이되 제도적으로는 미국이다. 미국의 GAAP(Generally Accepted Accounting Principles)와 한국의 K-IFRS는 같은 거래를 다르게 분류할 수 있다. 한국거래소의 매매 제도, 금융위원회의 규제 용어, 한국 특유의 재벌 구조에 대한 기업 분석 — 이런 것들은 번역의 산물이 아니라 한국 금융 생태계 고유의 산물이다. "엑세스바이오의 COVID-19 진단 제품의 매출 기여와 미국 시장 판매에 대해 올바른 것은?" 같은 문항은 한국 상장 기업의 연간 보고서를 읽어야만 답할 수 있다.

기존에 한국어 금융 LLM을 평가할 도구가 전혀 없었던 것은 아니다. KRX-Bench는 한국 상장 기업에 대한 지식을 평가했고, KMMLU는 45개 카테고리 중 금융과 경제의 하위 집합을 포함했다. 하지만 이 벤치마크들은 금융 부문에서 LLM이 해야 할 일의 넓은 스펙트럼을 담지 못했다. 회계 추론, 주가 예측, 금융 에이전트로서의 코딩 능력까지 포괄하는 벤치마크는 없었다.

여기에 한국 금융 기관 특유의 제약도 있다. 금융위원회의 네트워크 분리 정책은 독점 모델(GPT-4 등)의 활용을 제한한다. 엄격한 보안 규정 때문에 외부 API 호출이 불가능한 환경에서, 금융 기관들은 오픈소스 모델을 자체 인프라에 배포해야 한다. 이때 어떤 모델이 한국 금융을 잘 이해하는지 평가할 수 있는 체계가 없으면, 선택 자체가 불가능하다. 환각이나 편향이 금전적 손실로 직결되는 도메인에서, 평가 없이 배포하는 것은 지도 없이 항해하는 것과 같다. 생성 AI의 위험을 관리하기 위한 명확한 가이드라인과 견고한 평가 프레임워크의 부재가, 한국 금융 기관의 AI 도입을 가로막는 핵심 장벽이었다.

벤치마크의 설계 — 8주, 5,500문항, 11개 데이터 소스

₩on의 벤치마크 설계는 한국 금융의 다층적 성격을 반영하려 한다. 회계를 아는 것과 시장을 아는 것은 다르고, 시장을 아는 것과 코드로 데이터를 분석하는 것은 또 다르다. 하나의 숫자로 금융 능력을 측정하는 것은 불가능하다. ₩on은 이 문제에 대해 5가지 객관식(MCQA) 카테고리와 1가지 개방형 QA라는 다면적 접근을 택했다.

카테고리 문항 수 평가 대상
재무회계 (F&A) 1,450 K-IFRS 기반 회계 추론, 대학 시험 수준
국내 기업 분석 2,039 한국 상장 기업의 연간 보고서 기반 지식
주가 예측 1,472 OHLCV 데이터 기반 가격 방향 이진 분류
금융 시장 642 한국 금융 법률과 매매 제도 이해
금융 에이전트 46 CSV 파싱, 코드 기반 데이터 분석
개방형 FinQA 100 법률 추론, 금융공학, 계량경제학

데이터 수집에서 특기할 점은 소스의 구성이다. 가장 많이 활용된 11개 도메인 중 대부분이 정부(go.kr)와 비영리(or.kr) 기관이다 — 한국거래소(krx.co.kr), 금융위원회(fsc.go.kr), 한국은행(bok.or.kr), 한국법령정보서비스(law.go.kr), 한국회계기준원(kasb.or.kr), K-IFRS(kifrs.com), 중소벤처기업부(mss.go.kr), 공정거래위원회(ftc.go.kr). 라이선스 프리 공공 데이터에서 금융 벤치마크를 구축할 수 있다는 것 자체가 하나의 발견이다.

각 카테고리의 문항 설계에도 세심한 공학이 들어갔다.

재무회계 문항은 대학 시험에서 주로 가져왔으며, 예비 라운드에서는 4지선다, 본 라운드에서는 8지선다로 난이도를 높였다. 임베딩 기반으로 유사 문항을 그룹핑하고, "위의 모든 항목" 옵션을 추가하거나 선택지 순서를 셔플하는 규칙 기반 증강을 적용한 뒤, 수동 검수로 정확성을 보장했다. 4지선다에서 8지선다로의 확장은 단순히 보기를 늘린 것이 아니라, 모델이 표면적 패턴 매칭이 아닌 진정한 이해에 기반하여 답해야 하도록 만든 설계다.

주가 예측 카테고리는 한국 주식시장의 OHLCV 데이터에서 2024년 이후 데이터만 무작위 샘플링하여, 기술적 지표(adj-close, inc-5~30 등)를 Markdown 테이블로 제공하고 가격 상승/하락을 이진 분류하게 했다. 모멘텀이나 평균 회귀 같은 기본적인 시그널을 감지하는 능력을 평가하는 과제다.

금융 에이전트 카테고리는 자동화된 금융 에이전트로서의 기능을 평가한다. CSV 파일과 지시가 주어지면 특정 정보를 추출하는 코딩 작업을 수행해야 하며, 교란된 출력 변형도 포함되어 있다.

개방형 FinQA는 가장 도전적인 카테고리다. KRX-Bench의 법률 추론, HRM8K의 고급 수학 문제, 대학원 수준의 금융공학/계량경제학 시험에서 100개를 큐레이팅하고, o1-Pro로 골드 스탠다드 답변을 생성한 뒤 GPT-4o를 LLM-as-a-Judge로 활용했다.

평가 방식도 독특하다. Zero-shot Chain-of-Thought로 모델이 추론을 생성하게 한 뒤, 원래 프롬프트와 생성된 추론을 합쳐 로짓 프로세서로 제공된 선택지 중 하나를 강제 선택하게 했다. 모델의 추론 능력과 최종 판단을 분리하여 평가하는 방식이다. 단순히 정답을 맞히는 것이 아니라, 왜 그 답을 선택했는지의 과정도 함께 드러나게 한 설계다.

리더보드는 2024년 10월부터 12월까지 약 8주간 운영되었다. 예비 라운드(10.1411.07)에서 478개, 본 라운드(11.1312.06)에서 641개, 총 1,119개 모델이 제출되었다. 233개 계정이 등록했고, 71개 팀이 최소 1개 모델을 제출했으며, 활성 팀당 평균 약 7개를 제출했다. 최다 일일 제출은 45건(11월 5일)이었다.

참가자의 52.5%가 기업(금융 23%, 기술 21.3%), 47.5%가 학생이었다. 총 상금 약 42,000달러와 본 라운드 진출 30개 팀에 AWS $2,500 크레딧이 제공되었고, 이 투자는 600개 이상의 공개 모델과 200,000건 이상의 데이터 샘플로 돌아왔다. 허용된 기본 모델은 Qwen(1.5B/7B), Mistral(7B), Llama 3/3.1(8B), Gemma2(2B/9B) 등으로 제한되어, 대형 기업의 자원 우위를 방지했다. 하루 1모델 제출 제한으로 스팸도 방지했다.

인스트럭션 데이터셋 구축 과정도 체계적이다. 참가 팀들이 HuggingFace에 올린 200,000건의 원시 데이터를 수집한 뒤, MinHash 중복 제거, 시간 종속 쿼리 필터링("카카오의 2024년 매출은?" 같은 시점 의존적 문항 제거), 불완전한 질문 필터링을 거쳐 최종 86,007건의 ₩on-Instruct 데이터셋을 만들었다.

대부분의 참가자들이 원시 코퍼스를 GPT-4o나 Qwen2.5-72B-Instruct로 MCQA 또는 Instruction-Response 형식으로 변환했으며, 일부는 LLM-as-a-Judge를 검증에 활용했다. 경쟁의 부산물이 공공재가 되는 구조 — 리더보드 대회가 동시에 데이터 크라우드소싱 플랫폼으로 기능한 것이다. 42,000달러의 상금이 80,000건의 고품질 인스트럭션 데이터를 만들어냈으니, 데이터 1건당 약 0.5달러의 비용이다. 전문가에게 직접 의뢰하는 것보다 훨씬 효율적인 방식이다.

리더보드 결과 — 추론의 힘과 지식의 벽

리더보드의 성과를 바탕으로, 연구팀은 자체적으로 한국 금융 특화 추론 모델 ₩on을 구축했다.

₩on 모델은 Qwen2.5-Math-7B-Instruct를 기반으로, SFT와 DPO 2단계로 훈련되었다. 기본 모델로 수학 특화 모델을 택한 것은 의도적이다 — 금융의 핵심이 수리적 추론에 있기 때문이다. 최근 추론 LLM 트렌드에 맞춰, <think>...</think> 태그 내에서 자기 교정 추론을 수행하고, <solution>...</solution> 태그 내에서 최종 요약을 제공하는 구조를 채택했다.

SFT 단계에서는 세 가지 소스의 데이터를 사용했다: (1) 영어 Prompt-R1 응답, (2) 한국어 Prompt-R1 응답, (3) 86K 프롬프트에 대해 DeepSeek-R1이 생성한 응답을 GPT-4o로 정답 필터링(최대 6회 재시도)하여 만든 약 400K 인스턴스. 여기서 세 번째 소스가 핵심이다 — R1의 추론 능력을 한국 금융 도메인에 증류(distillation)하는 것이다. GPT-4o가 정답 필터 역할을 하여, R1이 틀린 응답을 생성한 경우를 걸러냈다.

DPO 단계에서는 SFT 이후 나타나는 두 가지 문제를 교정했다. 첫째, 일상적인 프롬프트에서도 불필요하게 긴 추론을 수행하는 과잉 사고(overthinking). 둘째, MCQA 포맷을 따르지 않는 출력 형식 오류. 선택 샘플은 R1 생성에서, 거부 샘플은 SFT 모델에서 추출했다. 총 훈련 시간은 H100 8대, DeepSpeed-Zero1 기준 25시간이다.

본 라운드 상위 모델들의 성능을 보자.

모델 F&A Market Open-Ended Average
overfit-brothers 0.65 0.83 0.01 0.50
AnonymousLLMer 0.63 0.65 0.04 0.44
shibainu24 0.56 0.67 0.04 0.43
₩on (연구팀) 0.78 0.66 0.18 0.54

₩on이 재무회계(0.78)와 개방형 FinQA(0.18)에서 최고 성능을 기록했고, 전체 평균에서도 0.54로 1위를 차지했다. 수학적이고 논리적인 추론이 요구되는 과제에서 탁월한 결과다. 개방형 FinQA에서 대부분의 모델이 0.00~0.04 수준에 머문 것을 감안하면, 0.18이라는 수치는 추론 모델의 구조적 우위를 보여준다.

반면 금융 시장(Market) 카테고리에서는 overfit-brothers(0.83)에 크게 뒤졌다. 이 카테고리는 한국 금융 법률과 매매 제도에 대한 사실적 지식에 의존하는데, 추론 중심 모델의 한계가 드러난 지점이다. Ha(2025)가 관찰한 것과 일치하는 패턴이다 — 추론 중심 모델은 도전적인 수학 문제에서 탁월하지만, 지식 집약적 도메인에서는 훈련이 진행될수록 오히려 성능이 저하될 수 있다. 추론은 칼이고 지식은 재료다. 칼이 아무리 날카로워도 재료가 없으면 요리를 만들 수 없다.

상위 팀들의 훈련 전략에서도 교훈이 있다. 예비 라운드에서는 모든 상위 10개 모델이 Qwen2.5-7B-Instruct 기반에 단순 SFT를 적용했다. 가장 큰 성능 향상은 국내 기업 분석 카테고리에서 나타났다(0.51에서 0.94로). 재무회계와 금융 시장 카테고리에서는 상대적으로 향상 폭이 작았는데, 단순 SFT만으로는 깊은 추론이 요구되는 과제의 성능을 끌어올리기 어렵다는 것을 시사한다.

본 라운드에서는 전략이 정교해졌다. Shinbainu 팀은 커리큘럼 기반 SFT(쉬운 샘플에서 어려운 샘플 순서)와 Evolve Instruct로 도전적 프롬프트를 생성한 뒤 DPO를 적용했다. Overfit Brothers 팀은 KTO(Kahneman-Tversky Optimization)를 활용했다.

하지만 가장 인상적인 결과를 낸 것은 Hi-Q 팀의 CPT + SFT + DPO 3단계 파이프라인이었다. CPT가 SFT 단독 대비 +2.7점의 향상을 가져왔고, 최종 CPT+SFT+DPO 조합이 평균 68.5로 최고점을 기록했다. 잘 구조화된 도메인 사전학습이 한국 금융 과제에서 유의미한 차이를 만든다는 실증이다. 다만 어떤 데이터로, 얼마나, 어떤 방식으로 CPT를 수행해야 최적인지에 대한 추가 연구는 여전히 필요하다.

열린 문 너머의 벽 — 한계와 과제

₩on이 한국어 금융 NLP의 첫 좌표를 찍었지만, 그 좌표가 지도의 전부는 아니다.

가장 근본적인 한계는 객관식 형식 자체다. 실무에서 금융 전문가가 마주하는 질문은 4지선다가 아니다. "이 기업의 현금흐름 구조를 분석하고 투자 의견을 제시하라"는 종류의 과제를 객관식으로 평가하는 것은 구조적으로 불가능하다. 개방형 FinQA 100건이 보완을 시도했지만, 대부분의 모델이 0.00~0.04 수준에 머문 것은 이 과제의 난도를 넘어 평가 방법론 자체의 미성숙을 드러낸다. 객관식은 지식의 존재를 확인할 수 있지만, 지식의 활용 능력은 확인하기 어렵다.

커버리지의 문제도 있다. 금융 에이전트 카테고리는 46문항에 불과하다. 보험, 부동산 금융, 파생상품 등 한국 금융의 중요한 하위 도메인이 충분히 반영되지 않았다. 기본 모델 제한(7B~9B급)도 공정성을 위한 선택이었지만, 더 큰 모델이나 다른 아키텍처의 가능성을 탐구하지 못한 제약이다. 70B급 모델이나 MoE(Mixture of Experts) 아키텍처가 한국 금융 과제에서 어떤 성능을 보일지는 여전히 열린 질문이다.

리더보드가 8주간만 운영되었다는 점도 아쉽다. 금융 시장은 끊임없이 변하고, 벤치마크도 그 변화를 반영하며 갱신되어야 한다. 2024년에 정확했던 기업 분석 문항이 2025년에는 이미 구식이 될 수 있다. 정적인 벤치마크는 시간이 지날수록 현실과 괴리가 벌어진다. 지속적으로 갱신되는 리빙 벤치마크(living benchmark)로의 전환이 필요하다.

₩on이 재무회계에서 0.78, 금융 시장에서 0.66이라는 것은 이 모델이 한국 금융의 약 70%를 이해한다는 뜻이 아니다. 특정 형식의 특정 질문에 대한 성능일 뿐이다. 벤치마크의 숫자가 실무 능력과 등치되는 것은 위험한 착각이며, 이 점을 인식하는 것이 벤치마크를 올바르게 사용하는 출발점이다.

2026년의 시선 — 한국 금융 AI의 좌표

₩on이 발표된 2025년 3월 이후 1년이 지났다. 그사이 한국 금융 AI 생태계는 빠르게 움직였다. KB금융, 신한금융 등 주요 금융지주사들이 자체 LLM 도입을 가속화하고 있고, 금융위원회도 AI 활용 가이드라인을 구체화하는 중이다. 한국 금융 기관들의 AI 수요는 더 이상 잠재적이지 않다 — 현실적이고 긴급하다.

₩on의 가장 큰 기여는 벤치마크 자체보다, 한국어 금융 NLP라는 연구 커뮤니티를 가시화한 것일 수 있다. 8주 동안 1,119개 모델이 제출되었다는 사실은, 수요가 공급보다 앞서 있었음을 보여준다. 참가자의 절반 이상이 기업이었다는 점도 의미심장하다 — 증권사, 은행, 기술 기업이 직접 모델을 훈련하고 제출했다는 것은, 이 문제가 학술적 호기심이 아닌 사업적 필요에서 비롯되었음을 뜻한다.

공공 데이터 기반의 벤치마크와 80K 인스트럭션 데이터셋은 후속 연구의 출발점이 된다. CPT + SFT + DPO 파이프라인이 한국 금융 도메인에서 효과적이라는 실증은, 실무 적용의 구체적 방향을 제시한다.

이 논문이 시사하는 더 넓은 교훈도 있다. 한국 정부와 공공 기관이 생산하는 데이터(go.kr, or.kr 도메인)가 금융 NLP의 핵심 학습 자원이 될 수 있다는 점이다. 홈택스, 오픈뱅킹, 전자공시시스템 — 한국 금융 인프라의 디지털화가 진행될수록, 이 공공 데이터의 가치는 커진다. ₩on은 그 가치를 처음으로 체계적으로 증명한 연구다.

남은 과제는 명확하다. 객관식을 넘어 실무 수준의 개방형 평가 체계 구축, 벤치마크의 지속적 갱신, 더 나은 CPT 전략의 탐구, 그리고 네트워크 분리 환경에서의 온프레미스 배포 — 평가에서 실전으로 넘어가는 다리가 아직 놓이지 않았다. 하지만 다리를 놓기 위해서는 먼저 강 양편의 위치를 아는 것이 필요하고, ₩on은 그 위치를 처음으로 측정한 연구다.

마무리

한 문장으로 줄이면 이렇다: "한국어 금융을 평가하려면, 한국어 금융에서 태어난 잣대가 필요하다."

₩on은 그 잣대의 첫 번째 버전이다. 5,500개 문항, 80,000건 인스트럭션 데이터, 1,119개 모델 제출 — 숫자만 봐도 한국어 금융 NLP 커뮤니티의 잠재력을 알 수 있다. 완벽하지는 않지만, 없는 것과 있는 것의 차이는 크다. 지도의 첫 번째 선이 정확하지 않아도, 그 선이 있어야 다음 사람이 더 나은 지도를 그릴 수 있다.

이 시리즈에서 BloombergGPT(독점 데이터), FinGPT(오픈소스 민주화), 그리고 ₩on(한국어 금융 벤치마크)까지 금융 NLP의 세 가지 접근을 살펴봤다. 금융의 언어는 각 나라의 제도 위에 서 있고, 그 제도를 이해하는 모델을 만들기 위해서는 그 제도에서 태어난 데이터와 평가 체계가 필요하다는 것이 일관된 교훈이다.

다음 글에서는 금융에서 문서 이해로 시선을 옮긴다. DocLLM — 비전 인코더 없이 바운딩 박스 좌표만으로 문서 레이아웃을 이해하는 경량 접근을 읽는다.


이 글은 "Agentic AI 논문 읽기" 시리즈의 열일곱 번째 글입니다. 시리즈 전체 목록은 시리즈 페이지에서 확인할 수 있습니다.

Copyright ⓒ 2026 Theo All rights reserved.

Created by @Theo. Powered By @Vallista-land