시리즈의 글 (25개)
- Agentic AI 논문 읽기: CoALA — 언어 에이전트를 위한 인지 아키텍처
- Agentic AI 논문 읽기: ReAct — 생각과 행동을 엮은 최초의 패턴
- Agentic AI 논문 읽기: CoT — 생각의 사슬이 추론을 깨운 순간
- Agentic AI 논문 읽기: Toolformer — 언어 모델이 스스로 도구를 잡은 순간
- Agentic AI 논문 읽기: AutoGen — 대화로 엮는 다중 에이전트 시스템
- Agentic AI 논문 읽기: MetaGPT — SOP로 설계한 다중 에이전트 조직
- Agentic AI 논문 읽기: Multi-Agent Survey — 집단 지능의 지도를 펼치다
- Agentic AI 논문 읽기: Reflexion — 실패를 언어로 되감는 에이전트
- Agentic AI 논문 읽기: LATS — 트리 탐색으로 추론과 행동을 통합하다
- Agentic AI 논문 읽기: ETO — 실패 궤적으로 에이전트를 훈련하다
- Agentic AI 논문 읽기: AI Agents That Matter — 벤치마크의 함정을 파헤치다
- Agentic AI 논문 읽기: Paradigms — 도구 사용·계획·피드백의 삼각 구도
- Agentic AI 논문 읽기: Halo — DAG로 에이전트 워크플로우를 최적화하다
- Agentic AI 논문 읽기: Tool Use Evolution — 단일 도구에서 다중 오케스트레이션까지
- Agentic AI 논문 읽기: BloombergGPT — 금융 특화 대규모 언어 모델의 탄생
- Agentic AI 논문 읽기: FinGPT — 오픈소스 금융 LLM 프레임워크
- Agentic AI 논문 읽기: ₩on — 한국어 금융 NLP의 첫 번째 벤치마크
- Agentic AI 논문 읽기: DocLLM — 레이아웃 인식 문서 이해 모델
- Agentic AI 논문 읽기: FINCH — 스프레드시트 중심 재무 벤치마크
- Agentic AI 논문 읽기: InvestorBench — 금융 의사결정 에이전트 벤치마크
- Agentic AI 논문 읽기: Constitutional AI — 원칙 기반 자기 개선
- Agentic AI 논문 읽기: RLHF의 한계 — 인간 피드백 강화학습의 미해결 과제
- Agentic AI 논문 읽기: Autonomous Agents Survey — 자율 에이전트 구축의 해부도
- Agentic AI 논문 읽기: Rise and Potential — 뇌·지각·행동으로 본 에이전트 전망
- Agentic AI 논문 읽기: A-MEM — 제텔카스텐에서 영감받은 에이전트 기억 시스템
논문 정보
- 제목: FinGPT: Open-Source Financial Large Language Models
- 저자: Hongyang Yang, Xiao-Yang Liu, Christina Dan Wang (AI4Finance Foundation, Columbia University, NYU Shanghai)
- 출판: FinLLM 2023@IJCAI / arXiv 2306.06031 (2023.06)
지난 글에서 BloombergGPT를 읽었다. 40년치 독점 데이터, 50.6B 파라미터, 약 300만 달러의 훈련 비용. "독점 데이터가 경쟁 우위"라는 명제를 정면으로 입증한 연구였다. 인상적이지만, 그 글의 마지막에 던진 질문이 남아 있다 — 그 반대 방향은 가능한가?
2023년 6월, Columbia University와 NYU Shanghai의 연구자들이 AI4Finance Foundation이라는 이름 아래 정확히 그 질문에 답했다. FinGPT는 BloombergGPT의 거울상이다. 독점 대신 공개, 처음부터 훈련 대신 경량 적응, 수백만 달러 대신 300달러. 같은 문제를 전혀 다른 철학으로 풀겠다는 선언이다.
소프트웨어 산업에서 이 패턴은 낯설지 않다. Linux가 Unix에 대해 던진 질문, MySQL이 Oracle에 대해 던진 질문과 구조가 같다. 독점 시스템이 기술적 우위를 증명한 직후, 오픈소스 대안이 "충분히 좋은 수준"을 훨씬 낮은 비용으로 달성할 수 있음을 보여주는 패턴. FinGPT는 금융 LLM 분야에서 그 역할을 자처한 논문이다.
금융 AI를 둘러싼 이 논쟁은 기술적이면서 동시에 정치적이다. 누가 금융 언어를 이해하는 모델을 만들 수 있는가? Bloomberg 같은 거대 금융 정보 기업만의 특권인가, 아니면 대학 연구실과 스타트업도 참여할 수 있는 열린 경쟁인가? FinGPT는 후자에 건 논문이다. 그리고 이 시리즈에서 Toolformer가 도구 사용의 문을 열었듯, FinGPT는 금융 LLM의 문턱을 낮추려는 시도다.
성벽 안의 언어 — 금융 LLM의 접근성 문제
금융 데이터는 세 가지 고유한 난제를 가진다.
첫째, 높은 시간 민감도. 시장을 움직이는 뉴스가 공개되면 알파를 극대화할 수 있는 창은 몇 분에서 몇 시간이다. 어제의 데이터로 훈련한 모델이 오늘의 시장에서 유효하다는 보장이 없다.
둘째, 끊임없는 동적성. 경제 상황, 규제 변화, 지정학적 이벤트가 금융 환경을 매일 재구성한다. 모델을 한 번 훈련하고 고정하는 것은 금융에서 통하지 않는다. 그런데 전체 재훈련은 수백만 달러가 든다.
셋째, 낮은 신호 대 잡음비(SNR). 방대한 금융 데이터 속에 실제로 유용한 정보는 희박하게 흩어져 있다. 트위터의 루머, 뉴스의 반복 보도, 공시의 형식적 문구 — 이 노이즈를 걸러내지 않으면 모델은 시장의 신호가 아니라 소음을 학습한다.
BloombergGPT는 이 세 난제를 자원의 힘으로 돌파했다. 40년치 뉴스, SEC 공시, 금융 소셜 미디어를 축적한 FinPile 363B 토큰. 130만 A100 GPU 시간. 이 규모의 투자는 Bloomberg이기에 가능했다. 대부분의 금융 기관, 대학 연구실, 핀테크 스타트업에게는 재현 불가능한 접근이다.
비유하자면 이렇다. BloombergGPT는 성벽 안에 지은 도서관이다. 장서는 풍부하고 사서는 유능하지만, 입장권이 없으면 문 앞에 서는 것조차 불가능하다. FinGPT가 제기한 질문은 단순하다 — 성벽 밖의 공공 도서관으로도 충분히 읽을 수 있지 않은가?
이 질문에 답하기 위해, 먼저 두 접근의 철학적 차이를 정리할 필요가 있다.
| 차원 | BloombergGPT | FinGPT |
|---|---|---|
| 데이터 | 독점 (FinPile 363B 토큰) | 공개 (뉴스, SEC, 소셜 미디어) |
| 훈련 방식 | 처음부터 사전 훈련 (50.6B) | 기존 모델 경량 파인튜닝 (LoRA) |
| 비용 | ~$3,000,000 (130만 GPU 시간) | ~$300 |
| 접근성 | 비공개, 재현 불가 | 오픈소스, 누구나 재현 가능 |
| 모델 업데이트 | 전체 재훈련 필요 | 경량 재파인튜닝으로 빠른 적응 |
| 과제 범위 | 17개 벤치마크 (넓은 범위) | 감성 분석 중심 (깊은 집중) |
같은 목적지를 향한 전혀 다른 경로다. 하나는 자원 집약적이고, 다른 하나는 지혜 집약적이다.
네 개의 층 — FinGPT의 설계 구조
FinGPT는 엔드투엔드 프레임워크를 네 개의 계층으로 설계했다.
첫 번째는 데이터 소스 계층이다. Reuters, CNBC, Yahoo Finance, MarketWatch 같은 뉴스 사이트, Twitter와 Reddit 같은 소셜 미디어, SEC와 NYSE의 공시 서류, Seeking Alpha와 Google Trends의 애널리스트 전망까지 — 공개적으로 접근 가능한 모든 금융 데이터 소스를 수집 대상으로 삼는다. Bloomberg의 독점 FinPile 대신, 인터넷 위에 흩어진 공개 데이터를 자동으로 긁어 모으는 전략이다.
두 번째는 데이터 엔지니어링 계층이다. 수집된 원시 데이터를 실시간 NLP 파이프라인으로 정제한다. 파이프라인은 다섯 단계로 구성된다: 데이터 정제(비관련 데이터 제거, 결측값 처리, 텍스트 정규화), 토크나이제이션(실시간 스트림 분해), 벡터 임베딩(도메인 적응 모델로 금융 텍스트를 의미 벡터로 인코딩), 특성 추출(TF-IDF, Word2Vec 등), 데이터 증강(실제 금융 데이터 특성을 모방하는 합성 데이터 생성). 특히 벡터 임베딩 단계에서 티커 심볼, 변동률, 이벤트 유형, 시간 메타데이터를 벡터에 통합하여 세밀한 금융 맥락을 포착하고, 벡터 DB에 인덱싱하여 저지연 검색과 RAG를 지원한다.
이 계층이 FinGPT의 "데이터 중심 접근"의 실체다. 모델 아키텍처가 아니라 데이터 파이프라인에 엔지니어링의 무게중심을 둔다.
세 번째는 LLM 계층이다. 모델을 처음부터 훈련하지 않는다. Llama, Mistral, Qwen 같은 기존 오픈소스 모델을 가져와서 LoRA(Low-Rank Adaptation)로 경량 파인튜닝한다. LoRA의 핵심은 원본 모델의 가중치를 고정한 채, 저차원 행렬 두 개만 훈련하는 것이다. 8B 파라미터 모델 전체를 움직이는 대신, 그 위에 얇은 적응 층을 덧씌우는 접근이다. Llama-3.1-8B 기준으로 훈련 가능 파라미터는 약 8.3M — 원본 8B의 0.1% 미만이다. 비용은 약 300달러.
여기에 RLSP(Reinforcement Learning on Stock Prices)라는 독자적 기법을 추가했다. 이름에서 알 수 있듯, RLHF(Reinforcement Learning from Human Feedback)의 금융 버전이다. RLHF가 인간 선호도를 보상으로 쓰듯, RLSP는 뉴스 발행 후 실제 주가 변동을 보상 함수로 쓴다. 환경은 금융 시장이고, 보상은 뉴스 후 주가 반응이다. 감성 분석의 출력을 시장의 실제 반응과 정렬함으로써, 모델이 "금융적으로 올바른" 감성을 학습하게 한다. 인간 주석자의 판단이 아니라 시장 자체의 판단을 정답으로 삼는 것이다.
네 번째는 응용 계층이다. 감성 분석, 로보어드바이저, 퀀트 트레이딩, 포트폴리오 최적화, 신용 점수, 사기 탐지까지 — 금융 실무의 다양한 과제를 커버한다. 논문은 각 응용에 대해 실습 튜토리얼과 데모를 제공하여, 프레임워크의 실용적 진입 장벽을 낮추려 했다.
이 네 계층 구조에서 주목할 점은 LLM이 세 번째 계층이라는 사실이다. 첫 번째와 두 번째 — 데이터 수집과 정제 — 가 모델보다 앞에 놓여 있다. 이것이 FinGPT가 스스로를 "데이터 중심 접근"이라 부르는 이유다. 모델은 교체 가능한 부품이고, 데이터 파이프라인이 프레임워크의 진짜 뼈대다. Llama가 아닌 Mistral을 쓰더라도, Qwen을 쓰더라도, 앞의 두 계층은 동일하게 작동한다.
300달러의 감성 분석 — 벤치마크가 말하는 것
FinGPT의 주력 실험은 금융 감성 분석이다. 62만 건 이상의 금융 뉴스 헤드라인을 CNBC, Reuters, Yahoo Finance, MarketWatch에서 수집하고, 뉴스 발행 후 단기 주가 변동으로 자동 레이블링했다. 수동 주석 비용을 회피하면서, 감성을 실제 시장 반응과 연결하는 접근이다.
데이터셋의 레이블링 방식이 흥미롭다. 사람이 직접 "긍정/부정/중립"을 태깅하는 대신, 뉴스 발행 후 단기 주가 변동률 r을 기준으로 자동 분류했다. r이 양의 임계값을 넘으면 Positive, 음의 임계값 아래면 Negative, 그 사이면 Neutral이다. 감성의 정의를 "시장이 실제로 어떻게 반응했는가"에 묶은 것이다. 수동 주석의 비용과 주관성을 동시에 회피하는 전략이지만, 주가 변동이 반드시 해당 뉴스의 감성만을 반영하지는 않는다는 한계도 있다.
Llama-3.1-8B-Instruct를 기반으로 2단계 적응을 수행했다. 1단계는 LoRA 기반 지도 파인튜닝(SFT)으로, rank=8, scaling factor alpha=16의 표준 구성에서 약 8.3M의 파라미터만 훈련한다. 2단계는 RLSP를 통한 시장 정렬이다. RLHF가 인간 선호도를 보상으로 쓰듯, RLSP는 실제 주가 반응을 보상 함수로 쓴다.
| 모델 | 정확도 | Macro-F1 |
|---|---|---|
| Llama3.1-8B (zero-shot) | 57.9 | 54.4 |
| ChatGPT (zero-shot) | 63.4 | 61.7 |
| FinBERT | 71.2 | 69.9 |
| FinGPT (LoRA-SFT) | 78.8 | 77.3 |
| FinGPT (SFT + RLSP) | 82.1 | 80.9 |
ChatGPT 대비 +18.7% 정확도, FinBERT 대비 +10.9% 정확도. 300달러짜리 파인튜닝이 세계 최고 수준의 범용 모델과 금융 특화 BERT 모델을 모두 넘어선 것이다.
제거 실험(ablation)에서는 Base Llama3의 54.4에서 LoRA SFT가 77.3으로 끌어올리고, RLSP가 80.9으로 마무리했다. LoRA가 대부분의 무거운 작업을 수행하고, RLSP가 시장 정렬이라는 마지막 한 겹을 더한 구조다.
주목할 점은 각 단계의 기여분이다. Base Llama3에서 LoRA SFT로의 점프가 54.4 -> 77.3으로 +22.9, SFT에서 RLSP 추가가 77.3 -> 80.9로 +3.6이다. LoRA가 전체 개선의 약 86%를 담당했다. 이는 경량 파인튜닝만으로도 도메인 적응의 대부분이 달성 가능하다는 강력한 증거다. RLSP는 "마지막 한 겹"이지만, 시장의 실제 반응과 모델 출력을 정렬한다는 점에서 질적으로 중요한 한 겹이다.
사례 하나가 이 차이를 선명하게 보여준다. "Tesla cuts prices again in China as EV competition intensifies"라는 헤드라인에 대해, 기본 Llama3는 Neutral을 출력했다. 표면적 문구만 읽은 것이다 — "가격 인하"를 소비자에게 좋은 것으로, "경쟁 심화"를 중립적 시장 현상으로 해석한 셈이다. FinGPT는 Negative를 출력했다. 가격 인하가 경쟁 압박과 마진 압축을 의미한다는 금융적 맥락을 읽어낸 것이다. 실제 후속 주가도 하락했다. 같은 문장을 읽고도 "소비자의 시선"과 "투자자의 시선"이 다르다는 것을 모델이 학습한 것이다.
공공 도서관의 한계 — FinGPT가 말하지 않는 것
숫자가 인상적이지만, 정직한 평가가 필요하다.
첫째, 실험이 감성 분석 하나에 집중되어 있다. 금융 NER, 수치 추론, 질의응답 같은 다른 핵심 과제에 대한 체계적 평가가 없다. BloombergGPT가 5개 외부 벤치마크와 12개 내부 벤치마크에서 검증된 것과 대조적이다. 깊이 대 넓이의 트레이드오프에서 FinGPT는 깊이를 선택했고, 그 선택의 대가는 일반화 가능성에 대한 불확실성이다.
둘째, 데이터 품질의 문제다. 공개 소스 데이터는 접근성은 높지만, 노이즈도 높다. 소셜 미디어의 루머, 뉴스의 편향, 공시의 형식적 차이 — Bloomberg가 40년간 정제해온 데이터와 인터넷에서 자동 수집한 데이터 사이에는 품질 격차가 존재한다. 논문 스스로도 금융 데이터의 "낮은 SNR"을 핵심 도전으로 꼽으면서, 그 도전을 자동화된 파이프라인만으로 얼마나 해결할 수 있는지에 대한 정량적 분석은 부족하다.
셋째, 시간적 감쇠(temporal decay)다. 금융 데이터의 유효 기간은 짧다. FinGPT의 경량 재파인튜닝 능력은 이론적으로 빠른 업데이트를 가능하게 하지만, 실제로 얼마나 자주, 얼마나 빠르게 모델을 갱신해야 성능을 유지할 수 있는지에 대한 실험이 빠져 있다. 2016~2024 데이터로 훈련한 모델이 2025년 시장에서도 같은 정확도를 보일 것이라는 보장이 없다.
넷째, 영어 중심의 설계다. 논문의 데이터 소스와 실험은 모두 영어 금융 데이터에 기반한다. 금융 시장은 글로벌하지만, 금융 언어는 지역적이다. 한국의 DART 공시, 일본의 EDINET, 중국의 CNINFO — 각국의 금융 데이터는 형식과 용어가 다르다. "실적이 컨센서스를 하회했다"라는 한국어 문장의 감성을 영어 데이터로 훈련한 모델이 정확히 판단할 수 있을까? 이 다국어 확장에 대한 로드맵은 향후 과제로 남겨졌다.
이 한계들을 종합하면, FinGPT는 "오픈소스 금융 LLM이 가능하다"는 개념 증명(proof of concept)에는 성공했지만, "프로덕션에 투입할 수 있다"는 증명에는 아직 도달하지 못한 것이다. 프레임워크의 가치와 실전 적용 사이의 간극 — 이것이 후속 연구가 채워야 할 공간이다.
2026년의 시선
FinGPT가 발표된 2023년 6월 이후 약 3년이 흘렀다. 오픈소스 금융 LLM의 풍경은 FinGPT의 저자들조차 예상하지 못했을 정도로 변했다.
가장 큰 변화는 기반 모델 자체의 진화다. FinGPT가 초기에 기반으로 삼은 Llama-2는 Llama-3, Llama-4로 세대를 거듭했고, Mistral, Qwen, DeepSeek 같은 강력한 경쟁 모델들이 등장했다. 기반 모델이 강해질수록 경량 파인튜닝의 출발점이 높아지고, FinGPT 같은 프레임워크의 잠재력도 함께 올라간다. 300달러의 적응이 더 강력한 모델 위에서 이루어진다면, 성능 천장도 함께 올라간다. 논문의 최신 버전(v2, 2025.11)이 이미 Llama-3.1과 Qwen3을 지원 모델 목록에 추가한 것이 이를 반영한다.
또 하나의 변화는 에이전트와의 결합이다. 이 시리즈에서 읽어온 ReAct, Toolformer, AutoGen 같은 에이전트 프레임워크와 금융 LLM이 만나면서, 단순한 감성 분석을 넘어 자율적 금융 분석 에이전트의 가능성이 열리고 있다. FinGPT의 4계층 프레임워크가 에이전트 시스템의 도구 계층으로 편입되는 미래를 상상할 수 있다.
FinGPT가 제안한 "데이터 중심 + 경량 파인튜닝" 패러다임은 금융을 넘어 의료, 법률, 교육 등 다른 도메인 특화 LLM에서도 반복되고 있다. 독점 데이터로 거대한 모델을 처음부터 훈련하는 대신, 공개 모델 위에 도메인 지식을 얹는 접근이 사실상의 표준이 됐다. BloombergGPT의 "성벽 안 도서관"이 틀렸다기보다, FinGPT가 보여준 "성벽 밖 도서관"의 비용 효율이 대부분의 조직에게 더 현실적이었던 것이다.
동시에, 경량 파인튜닝 자체에 대한 회의도 커졌다. RAG(검색 증강 생성)가 발전하면서, 파인튜닝 없이도 도메인 지식을 주입할 수 있다는 주장이 힘을 얻었다. FinGPT의 LoRA + RLSP가 여전히 RAG 기반 접근 대비 우위를 유지하는지는 2026년 현재 열린 질문이다.
그리고 FinGPT가 남긴 가장 중요한 유산은 아마도 질문 자체일 것이다 — "금융 LLM은 독점의 영역인가, 공유의 영역인가?" 이 질문은 3년이 지난 지금도 답이 갈린다. 하지만 적어도 "공유"가 선택지에 올라온 것은 FinGPT 때문이다. AI4Finance Foundation이 오픈소스 커뮤니티를 중심으로 코드, 데이터, 벤치마크를 공개한 것은 기술적 기여를 넘어, 금융 AI 연구의 생태계 자체를 변화시키려는 시도였다.
마무리
한 문장으로 줄이면 이렇다: "금융 LLM에 수백만 달러가 필요하다는 전제를 300달러로 반박한 논문."
FinGPT의 기여는 모델이 아니라 프레임워크에 있다. 데이터 수집부터 파인튜닝, 응용까지의 파이프라인을 오픈소스로 공개함으로써, "나도 금융 LLM을 만들 수 있다"는 가능성을 열었다. 물론 BloombergGPT의 독점 데이터가 주는 깊이를 공개 데이터가 완전히 대체할 수 있는지는 여전히 증명되지 않았다. 감성 분석이라는 단일 과제에서의 성공이 금융 NLP 전반으로 확장될 수 있는지도 열린 문제다. 하지만 최소한, 성벽 밖에서도 싸울 수 있다는 것은 보여줬다.
BloombergGPT가 "이것이 가능하다"를 증명했다면, FinGPT는 "이것이 당신에게도 가능하다"를 증명하려 했다. 전자가 기술의 경계를 넓혔다면, 후자는 기술의 접근성을 넓혔다. 둘 다 필요한 일이고, 둘 다 같은 방향을 가리킨다 — 금융은 언어를 이해하는 기계를 필요로 한다.
다음 글에서는 시선을 한국어 금융 NLP로 좁힌다. FinGPT가 영어 중심이라는 한계를 지적했는데, 바로 그 빈칸을 채우려는 연구다. Won — 한국어 금융 벤치마크와 리더보드를 최초로 구축하여, "한국어로도 금융 LLM을 평가할 수 있는가?"라는 질문에 답한 논문을 읽는다.
이 글은 "Agentic AI 논문 읽기" 시리즈의 열여섯 번째 글입니다. 시리즈 전체 목록은 시리즈 페이지에서 확인할 수 있습니다.