Agentic AI 논문 읽기: BloombergGPT — 금융 특화 대규모 언어 모델의 탄생

Written by Theo2026년 4월 5일 · 11 min read

시리즈의 글 (25개)

  1. Agentic AI 논문 읽기: CoALA — 언어 에이전트를 위한 인지 아키텍처
  2. Agentic AI 논문 읽기: ReAct — 생각과 행동을 엮은 최초의 패턴
  3. Agentic AI 논문 읽기: CoT — 생각의 사슬이 추론을 깨운 순간
  4. Agentic AI 논문 읽기: Toolformer — 언어 모델이 스스로 도구를 잡은 순간
  5. Agentic AI 논문 읽기: AutoGen — 대화로 엮는 다중 에이전트 시스템
  6. Agentic AI 논문 읽기: MetaGPT — SOP로 설계한 다중 에이전트 조직
  7. Agentic AI 논문 읽기: Multi-Agent Survey — 집단 지능의 지도를 펼치다
  8. Agentic AI 논문 읽기: Reflexion — 실패를 언어로 되감는 에이전트
  9. Agentic AI 논문 읽기: LATS — 트리 탐색으로 추론과 행동을 통합하다
  10. Agentic AI 논문 읽기: ETO — 실패 궤적으로 에이전트를 훈련하다
  11. Agentic AI 논문 읽기: AI Agents That Matter — 벤치마크의 함정을 파헤치다
  12. Agentic AI 논문 읽기: Paradigms — 도구 사용·계획·피드백의 삼각 구도
  13. Agentic AI 논문 읽기: Halo — DAG로 에이전트 워크플로우를 최적화하다
  14. Agentic AI 논문 읽기: Tool Use Evolution — 단일 도구에서 다중 오케스트레이션까지
  15. Agentic AI 논문 읽기: BloombergGPT — 금융 특화 대규모 언어 모델의 탄생
  16. Agentic AI 논문 읽기: FinGPT — 오픈소스 금융 LLM 프레임워크
  17. Agentic AI 논문 읽기: ₩on — 한국어 금융 NLP의 첫 번째 벤치마크
  18. Agentic AI 논문 읽기: DocLLM — 레이아웃 인식 문서 이해 모델
  19. Agentic AI 논문 읽기: FINCH — 스프레드시트 중심 재무 벤치마크
  20. Agentic AI 논문 읽기: InvestorBench — 금융 의사결정 에이전트 벤치마크
  21. Agentic AI 논문 읽기: Constitutional AI — 원칙 기반 자기 개선
  22. Agentic AI 논문 읽기: RLHF의 한계 — 인간 피드백 강화학습의 미해결 과제
  23. Agentic AI 논문 읽기: Autonomous Agents Survey — 자율 에이전트 구축의 해부도
  24. Agentic AI 논문 읽기: Rise and Potential — 뇌·지각·행동으로 본 에이전트 전망
  25. Agentic AI 논문 읽기: A-MEM — 제텔카스텐에서 영감받은 에이전트 기억 시스템

Agentic AI 논문 읽기: BloombergGPT — 금융 특화 대규모 언어 모델의 탄생

논문 정보

  • 제목: BloombergGPT: A Large Language Model for Finance
  • 저자: Shijie Wu, Ozan İrsoy, Steven Lu 외 (Bloomberg, Johns Hopkins University)
  • 출판: arXiv 2303.17564 (2023.03)

지난 글에서 다룬 Tool Use Evolution 서베이는 도구 사용의 전체 지형을 조망했다. 단일 호출의 정확성에서 다중 오케스트레이션의 견고성까지, 에이전트가 외부 세계와 상호작용하는 방식의 진화를 6가지 차원으로 정리한 지도였다. 그 지도 위에는 범용적인 도구들 -- 검색 API, 코드 실행기, 브라우저 -- 이 놓여 있었다. 하지만 도구가 아무리 정교해져도, 도구를 쥐는 손 자체가 금융의 언어를 모르면 어떻게 될까?

시리즈가 여기서 방향을 전환한다. 지금까지 열네 편의 논문은 에이전트의 범용적 능력 -- 추론, 행동, 도구 사용, 학습, 평가 -- 을 다뤘다. ReAct로 추론과 행동을 엮고, Reflexion으로 실패에서 배우고, Voyager로 열린 세계를 탐험하고, Toolformer로 도구를 집어들었다. 이 모든 능력은 범용적이었다. 어떤 도메인에서든 작동하도록 설계된 것이었다.

이제부터 여섯 편의 논문을 통해 이 범용적 능력이 특정 도메인, 특히 금융에서 어떻게 구현되고 평가되는지 살펴본다. 범용에서 특화로의 전환 -- 그 첫 번째 문은 Bloomberg이 연다.

2023년 3월, Bloomberg의 AI 연구팀이 금융 특화 대규모 언어 모델을 발표했다. 50.6B 파라미터, 708B 토큰. 숫자 자체도 인상적이지만, 진짜 의미는 데이터에 있다. Bloomberg가 40년간 축적한 금융 데이터 -- 뉴스, 보고서, SEC 제출 문서, 금융 소셜 미디어 -- 를 FinPile이라는 363B 토큰의 코퍼스로 구성했다. 당시 기준으로 가장 큰 도메인 특화 데이터셋이었다. 이것은 돈으로 살 수 없는 데이터다.

이 논문이 중요한 이유는 모델의 성능 자체만이 아니다. "독점 데이터를 가진 기업이 도메인 특화 LLM을 구축하면 어떤 일이 일어나는가"라는 질문에 최초의 대규모 실증적 답변을 제공했다는 점에서 의미가 있다. 학계가 공개 데이터로 실험하는 동안, 산업계가 자기만의 금광으로 무엇을 캘 수 있는지 보여준 사례다.

만능 칼과 회칼 -- 범용 모델이 금융에서 부딪히는 벽

범용 언어 모델은 만능 칼이다. 어떤 재료든 자를 수 있지만, 참치 해체에는 쓸 수 없다. 금융 텍스트가 바로 그 참치다.

"COMPANY to cut 10,000 jobs" -- 이 문장의 감성은 무엇인가? 일상 언어로 읽으면 부정적이다. 사람들이 일자리를 잃는다. 그러나 금융 시장에서 이 뉴스는 구조조정에 따른 비용 절감 기대로 주가를 올린다. 감성이 뒤집힌다. "10-K filing"이라는 단어를 보고 일반 모델은 등산 대회를 떠올릴 수도 있지만, 금융에서는 기업의 연간 보고서를 뜻한다. 같은 단어, 다른 의미. 같은 문장, 반대의 감성.

금융 텍스트의 특수성은 감성만이 아니다. 숫자의 밀도가 일반 텍스트와 비교할 수 없이 높다. "Revenue increased 12.3% YoY to $4.7B, beating consensus estimates of $4.5B" 같은 문장에서 모델은 비율, 절대값, 시간 비교, 시장 기대치와의 차이를 동시에 파악해야 한다. 약어도 독특하다. YoY(Year over Year), EPS(Earnings Per Share), EBITDA -- 이런 용어들이 문장마다 등장하고, 문맥에 따라 의미가 미묘하게 달라진다.

2023년 이전까지 도메인 특화 모델의 성공 사례는 이미 있었다. 코드에는 Codex, 과학 논문에는 Galactica, 의학에는 Med-PaLM. 각각이 범용 모델보다 해당 영역에서 우월했다. 그러나 금융 도메인에서는 아무도 이 실험을 대규모로 수행하지 않았다. 물론 FinBERT처럼 BERT를 금융 텍스트로 파인튜닝한 소규모 시도는 있었지만, LLM 규모에서의 도메인 특화 사전 훈련은 전례가 없었다.

이유가 있다. 금융 데이터는 대부분 독점적이다. 학술 기관이 구할 수 있는 금융 텍스트의 양은 제한적이다. 뉴스 기사는 라이선스가 필요하고, 기업 공시는 접근이 어렵고, 소셜 미디어 데이터는 정제가 필요하다. Bloomberg는 달랐다. 40년간 쌓아온 뉴스, 공시, 보도자료, 웹 크롤 데이터가 있었다. 데이터의 양만이 아니라, 큐레이션의 깊이가 달랐다. 금융 전문가가 분류하고 정제한 데이터였다.

핵심 질문은 이것이었다: 도메인 데이터만으로 훈련할 것인가, 범용 데이터와 섞을 것인가? 전자는 금융에 강하지만 범용 능력을 잃는다. 후자는 양쪽을 유지할 수 있지만, 도메인 특화의 날이 무뎌질 수 있다. 의학 분야에서 PubMedBERT가 도메인 데이터만으로 처음부터 훈련하여 일반 BERT를 의학 과제에서 넘어선 사례가 있었고, 반대로 Galactica는 과학 데이터 48M 논문에 범용 데이터를 섞어 과학적 지식과 범용 능력을 동시에 유지했다. BloombergGPT는 Galactica의 혼합 전략을 택하되, 비율에 승부를 걸었다. 금융 데이터의 비율을 어디까지 높이면 범용 능력이 무너지기 시작하는가? 이 경계를 탐색하는 것이 BloombergGPT의 핵심 실험이다.

FinPile이라는 금광 -- 363B 토큰의 설계

BloombergGPT의 진짜 기여는 모델 아키텍처가 아니라 데이터 설계에 있다. 아키텍처는 기존 BLOOM을 따랐고, 훈련 기법도 표준적이었다. 차별화의 원천은 오직 데이터다. FinPile은 다섯 가지 원천으로 구성된 363B 토큰의 금융 코퍼스다.

원천 토큰 수 비율 내용
Web 298B 42.01% Bloomberg이 선별한 금융 관련 고품질 웹사이트
News 38B 5.31% 금융 커뮤니티 관련 뉴스 (Bloomberg 자체 기사 제외)
Filings 14B 2.04% SEC 공시 (10-K, 10-Q 등), EDGAR 출처
Press 9B 1.21% 기업 보도자료
Bloomberg 5B 0.70% Bloomberg 자체 뉴스, 의견, 분석

주목할 점은 FinPile의 구성 비율이다. Web이 298B로 압도적이지만, 이것은 일반적인 웹 크롤이 아니다. Bloomberg이 금융 관련 고품질 웹사이트를 선별하여 수집한 것이다. Filings 카테고리는 14B 토큰으로 비율은 작지만, 후에 벤치마크에서 가장 큰 성능 격차를 만들어낸다. SEC 공시 문서는 표와 차트가 밀집된 PDF 형식으로, 기존 LLM 훈련 데이터와 근본적으로 다른 문서 유형이기 때문이다.

여기에 공개 데이터셋 345B 토큰(The Pile 184B, C4 138B, Wikipedia 24B)을 합쳐 총 708B 토큰의 혼합 코퍼스를 만들었다. 금융 51%, 범용 49% -- 거의 정확히 반반이다. 이 비율은 직관적인 것 같지만, 실은 Chinchilla 스케일링 법칙과의 절충에서 나온 결과다.

Chinchilla 법칙에 따르면, 주어진 계산 예산(1.3M A100 GPU 시간)에서 최적 모델은 약 50B 파라미터에 1,100B 토큰으로 훈련해야 한다. 그러나 Bloomberg이 확보할 수 있는 금융 데이터는 363B 토큰이 한계였다. 범용 데이터를 아무리 늘려도 금융 데이터의 양은 변하지 않는다. 여기서 실용적 타협이 이루어진다. 범용 데이터를 345B 추가하여 총 708B 토큰을 확보하되, 이는 여전히 Chinchilla 최적인 1,100B에 크게 못 미친다. 그래서 708B 토큰에서 훈련을 멈추되, 모델 크기는 Chinchilla 최적 근처인 50.6B로 유지하는 전략을 택했다. 이론적 최적보다 토큰이 부족하지만, 큐레이팅된 도메인 데이터의 품질로 그 격차를 메우겠다는 판단이었다. 결과적으로 이 판단은 벤치마크에서 검증된다.

모델 아키텍처는 BLOOM을 기반으로 한 decoder-only 트랜스포머다. 70개 레이어, 40개 어텐션 헤드, 히든 차원 7,680. 총 50.6B 파라미터. BLOOM 아키텍처를 선택한 것은 실용적 이유가 크다 -- BLOOM 프로젝트의 일환으로 개발된 기존 코드와 인프라를 활용할 수 있었기 때문이다. 논문은 이를 "적당한 규모의 팀이 도메인 특화 데이터로 경쟁력 있는 모델을 생산할 수 있음"을 보여주는 사례로 제시한다.

ALiBi 위치 인코딩을 사용했고, Unigram 토크나이저에 131,072 어휘를 부여했다 -- 표준 50,000보다 2.6배 큰 어휘로, 금융 전문 용어를 효율적으로 인코딩하기 위한 선택이었다. 토크나이저 설계도 독특했는데, The Pile의 22개 도메인을 256 청크로 분할하여 병렬로 토크나이저를 훈련한 뒤 계층적으로 병합하는 방식을 사용했다. 큰 어휘는 같은 길이의 컨텍스트 윈도우(2,048 토큰)에 더 많은 정보를 담을 수 있게 해준다.

훈련은 Amazon SageMaker에서 64개 p4d.24xlarge 인스턴스(총 512개 A100 40GB GPU)로 53일간 수행되었다. ZeRO Stage 3로 모델 파라미터, 그래디언트, 옵티마이저 상태를 128 GPU 그룹에 걸쳐 샤딩하고, MiCS로 클라우드 클러스터의 통신 오버헤드를 줄였다. Mixed Precision 훈련으로 포워드/백워드 패스는 BF16, 파라미터 저장과 업데이트는 FP32로 분리했다. AdamW 옵티마이저를 사용했고, 학습률은 6e-5에서 코사인 감쇠를 적용했다.

논문의 부록에는 "Training Chronicles"라는 이례적인 섹션이 있다. 53일간의 훈련 과정에서 내린 의사결정을 날짜별로 기록한 일지다. Step 7,200에서 배치 크기를 1,024에서 2,048로 변경하고, Step 115,500에서 검증 손실이 정체하기 시작했을 때 학습률을 2/3로 낮추고, Step 129,900에서 다시 절반으로 낮추면서 dropout 0.1을 추가하고, 최종적으로 Step 139,200에서 569B 토큰(코퍼스의 80%)을 학습한 시점에 조기 종료했다.

이 과정은 마치 선원이 항해 일지를 쓰는 것과 같다. 바람이 바뀌면 돛을 조정하고, 폭풍이 오면 속도를 줄이고, 때로는 항로를 바꾼다. 대규모 모델 훈련의 실전 기록을 공개한 것 자체가 학술적 기여다. 보통 논문은 최종 결과만 보여주지만, BloombergGPT는 53일간의 시행착오를 투명하게 공개하여, 비슷한 규모의 훈련을 시도하는 다른 팀들에게 실질적인 참고 자료를 제공했다.

숫자가 말하는 것 -- 금융 벤치마크의 풍경

벤치마크 결과가 BloombergGPT의 가설을 검증한다. 논문은 세 가지 층위에서 평가를 설계했다: 공개 금융 벤치마크(5개 외부 과제), Bloomberg 내부 벤치마크(12개 실전 과제), 범용 NLP 벤치마크(4개 스위트). 이 삼중 평가 구조 자체가 이전 도메인 특화 모델 연구보다 포괄적이다.

5개 외부 금융 과제에서 BloombergGPT는 같은 크기의 범용 모델(GPT-NeoX 20B, OPT-66B)뿐 아니라, 3.5배 큰 BLOOM-176B까지 일관되게 능가했다.

과제 유형 BloombergGPT (50.6B) GPT-NeoX (20B) OPT-66B BLOOM-176B
FPB 감성 분류 0.511 0.381 0.386 0.367
FiQA SA 감성 분석 0.751 0.632 0.714 0.553
Headlines 뉴스 분류 0.822 0.744 0.720 0.665
NER 개체명 인식 0.608 0.491 0.523 0.401
ConvFinQA 금융 QA 0.433 0.348 0.311 0.252

FPB(Financial PhraseBank) 감성 분류에서 BloombergGPT는 0.511로, 2위 OPT-66B의 0.386을 32% 넘어선다. 앞서 언급한 "감성이 뒤집히는" 금융 텍스트를 정확히 분류하려면, 금융 맥락에서의 감성이 일상 감성과 다르다는 것을 모델이 체화해야 한다. 363B 토큰의 금융 데이터가 이 체화를 가능하게 했다.

ConvFinQA -- 대화형 금융 질의응답 -- 에서는 격차가 더 극적이다. 0.433 대 0.348(GPT-NeoX), 0.311(OPT-66B), 0.252(BLOOM-176B). BLOOM-176B가 0.252에 불과하다는 점이 특히 인상적이다. 3.5배 큰 모델이 금융 QA에서는 절반도 안 되는 성능을 보인 것이다. 이 과제는 금융 보고서의 표를 읽고, 다단계 수치 추론("전년 대비 매출 성장률을 계산하고, 그 추세가 지속된다면 3년 후 예상 매출은?")을 수행해야 한다. 금융 맥락에서의 수치 추론이 요구되는 과제에서, 모델의 크기보다 훈련 데이터의 도메인 적합성이 결정적이었다.

Bloomberg 내부 벤치마크에서는 결과가 더 극적이었다. 10가지 감성 분석 과제 중 10개에서 1위, 4가지 개체명 인식 과제 전부에서 1위. 내부 감성 분석에는 에퀴티 뉴스, FX 뉴스, 신용, 소셜 미디어 등 Bloomberg의 실제 비즈니스 과제가 포함되어 있었다. 이 과제들은 공개 벤치마크보다 Bloomberg의 실제 사용 시나리오를 더 정확히 반영한다. 학술 벤치마크와 실전 과제 양쪽에서 모두 우위를 보인 것이 BloombergGPT의 설득력을 높인다.

NER(개체명 인식) 과제도 주목할 만하다. 금융 텍스트에서 기업명, 인물, 기관을 정확히 식별하는 것은 뉴스 분석과 정보 추출의 기초다. "Apple"이 과일인지 기업인지, "Goldman"이 사람 이름인지 Goldman Sachs인지를 문맥에서 판단해야 한다. BloombergGPT는 NER에서 0.608로, 2위 OPT-66B의 0.523을 16% 넘어섰다.

특히 Heldout 손실 분석이 흥미롭다. 논문은 FinPile에서 시간적으로 미래인 데이터를 사용하여 bits per byte(BPB)를 측정했다. BloombergGPT가 FinPile의 모든 카테고리에서 일관되게 최저 BPB를 달성했는데, Filings(공시 문서) 카테고리의 격차가 가장 컸다. PDF 기반 공시 문서는 다른 모델의 훈련 데이터에 거의 포함되지 않기 때문이다. 남들이 읽지 않은 문서를 읽은 모델이 남들이 못 푸는 문제를 풀었다. 범용 데이터에서의 BPB도 경쟁적이었다 -- 혼합 훈련이 범용 텍스트 이해력을 저하시키지 않았음을 의미한다.

동시에, 범용 NLP 벤치마크(BIG-bench Hard, MMLU, TriviaQA, BoolQ 등)에서도 BloombergGPT는 동일 규모 모델들과 동등하거나 우수한 성능을 보였다. BIG-bench Hard에서 4개 비교 모델 중 승률 1위 또는 2위를 기록했고, 176B BLOOM보다 더 자주 승리했다 -- 3.5배 작은 모델이 더 큰 모델을 범용 과제에서도 이긴 것이다. MMLU나 TriviaQA 같은 지식 평가에서는 GPT-NeoX와 동등했고, 독해(BoolQ, RACE)에서도 경쟁적이었다.

유일하게 BLOOM-176B가 우세한 영역은 일부 언어 과제(WiC, WSC 등)였는데, 이는 3.5배의 파라미터 차이를 고려하면 놀라운 일이 아니다. 오히려 50.6B 모델이 176B 모델과 대부분의 범용 과제에서 대등하게 경쟁한다는 사실 자체가 혼합 훈련의 효과를 입증한다.

이 결과가 시사하는 바는 명확하다. 혼합 훈련에서 금융 데이터 51%를 투입해도, 범용 능력이 희생되지 않았다. 오히려 금융 텍스트에 포함된 논리적 추론, 수치 분석, 사실 관계 판단이 범용 능력에도 긍정적 전이(positive transfer)를 일으켰을 가능성이 있다. 금융 보고서를 읽으며 익힌 수치 추론 능력이 일반 산술 과제에도 도움이 되고, 뉴스 분류를 하며 익힌 텍스트 이해력이 범용 독해에도 기여한다.

도메인 데이터가 범용 능력의 적이 아니라 보완재가 될 수 있다는 것 -- 이것이 논문의 핵심 주장이며, 이후 도메인 특화 모델 연구의 근거가 된 통찰이다.

이 발견은 도메인 특화 모델 연구 전체에 영향을 미쳤다. 이후의 도메인 특화 모델들 -- 의학, 법률, 과학 -- 이 대부분 혼합 훈련 전략을 채택한 것은 BloombergGPT의 이 결과에 힘입은 바가 크다.

금고의 그림자 -- BloombergGPT의 한계

BloombergGPT는 강력한 결과를 냈지만, 그 강력함의 원천이 곧 한계이기도 하다. 금고에 금을 쌓아두면 도둑은 못 들어오지만, 다른 사람도 들어올 수 없다.

첫째, 재현 불가능성이다. FinPile은 Bloomberg의 독점 데이터로 구성되어 있어 공개되지 않았다. 모델 가중치도 비공개다. 논문은 아키텍처, 훈련 하이퍼파라미터, 평가 방법론을 상세히 기술하여 최대한의 투명성을 제공하려 했지만, 학술 연구의 핵심 원칙인 재현성이 원천적으로 차단되어 있다. 다른 연구팀이 이 결과를 검증하거나 개선하려면, 비슷한 규모의 금융 데이터를 독자적으로 확보해야 한다. 현실적으로 Bloomberg급 데이터를 가진 조직은 세계에 몇 되지 않는다. 이 비대칭이 학술적으로는 약점이지만, Bloomberg의 비즈니스 관점에서는 경쟁 우위의 핵심이다.

둘째, 비용이다. 512개 A100 GPU에서 53일. 1.3M GPU 시간. 2023년 기준 A100 클라우드 가격으로 환산하면 수백만 달러에 달하는 비용이다. 이것은 대부분의 기업과 연구 기관이 감당하기 어려운 규모다. 도메인 특화 모델이 범용 모델을 이기려면, 매 도메인마다 이 비용을 지불해야 하는가? 이 질문이 다음 글에서 다룰 FinGPT의 출발점이 된다.

셋째, 인스트럭션 튜닝의 부재다. BloombergGPT는 사전 훈련만 수행했다. RLHF나 인스트럭션 파인튜닝은 미래 연구로 남겼다. 이는 모델이 지시를 따르는 능력, 대화하는 능력에서 한계를 갖는다는 뜻이다. 벤치마크에서 높은 점수를 받는 것과, 실제로 금융 애널리스트가 "이 기업의 최근 실적을 요약해줘"라고 물었을 때 유용한 답을 내는 것은 다른 문제다. 2023년 당시에는 충분했을 수 있지만, ChatGPT 이후의 세계에서 이 부재는 실용적 격차로 이어진다.

넷째, 시간적 지식의 미활용이다. FinPile에는 2007년부터 2022년까지의 시간 정보가 포함되어 있지만, 논문은 이 시간 정보를 모델 훈련에 명시적으로 활용하지 않았다. 금융 데이터에서 시간은 본질적 차원이다 -- 2008년의 "bank failure"와 2022년의 "bank failure"는 전혀 다른 맥락을 갖는다. 금리 환경, 규제 체계, 시장 심리가 모두 다르다. 시간 정보를 모델에 인코딩하면 과거 사건의 맥락적 이해가 가능해질 것이다.

다섯째, 할루시네이션에 대한 체계적 분석이 없다. 금융은 사실 정확성이 특히 중요한 도메인이다. "이 기업의 2022년 매출이 X억 달러였다"는 문장에서 숫자 하나가 틀리면 투자 판단이 바뀐다. 논문은 금융 과제의 정확도를 측정했지만, 모델이 생성하는 텍스트의 사실 정확성 -- 특히 수치와 날짜 -- 에 대한 별도의 분석은 수행하지 않았다. 이 시리즈의 앞선 글에서 ReAct가 외부 검색으로 환각을 0%로 줄인 것을 보았다. BloombergGPT에는 그런 그라운딩 메커니즘이 없다. 금융 도메인에서의 환각은 단순한 불편함이 아니라 규제적, 법적 위험으로 이어질 수 있다.

2026년의 시선

BloombergGPT가 발표된 지 3년이 지났다. 3년은 LLM 세계에서 한 세대에 해당한다. GPT-3.5에서 GPT-4로, 그리고 o1과 o3로. 오픈소스에서는 Llama에서 Llama 3로, Mistral에서 Mixtral로. 모델의 규모와 능력이 근본적으로 달라진 시간이다.

실현된 것: 도메인 특화 모델의 가치가 반복적으로 입증되었다. 의학의 Med-Gemini, 법률의 Harvey, 코드의 Codestral -- 범용 모델이 아무리 커져도, 특정 도메인의 전문 데이터로 훈련된 모델이 해당 영역에서 우위를 보이는 패턴은 계속 반복되고 있다. BloombergGPT가 던진 "독점 데이터가 경쟁 우위"라는 통찰은 업계의 상식이 되었다. 실제로 JP Morgan, Morgan Stanley 등 주요 금융 기관들이 자체 LLM 역량을 구축하거나, 범용 모델을 자사 데이터로 특화하는 전략을 채택했다.

확장된 것: 도메인 특화의 방법론이 달라졌다. BloombergGPT는 처음부터 사전 훈련(pre-training)하는 접근을 택했다. 708B 토큰을 처음부터 학습시키는, 비용과 데이터 모두에서 높은 장벽을 가진 방법이었다. 그러나 2024년 이후, LoRA나 QLoRA 같은 파라미터 효율적 파인튜닝(PEFT) 기법이 보편화되면서, 범용 모델 위에 도메인 지식을 얹는 방식이 주류가 되었다. Llama나 Mistral 같은 강력한 오픈소스 기반 모델이 등장하면서, "처음부터 만들 것인가, 기존 위에 쌓을 것인가"의 답이 후자로 기울고 있다.

다음 글에서 다룰 FinGPT가 정확히 이 접근이다. 사전 훈련의 비용과 데이터 장벽을 파인튜닝으로 우회하는 전략. BloombergGPT의 708B 토큰 사전 훈련 vs FinGPT의 경량 파인튜닝 -- 이 대비가 도메인 특화 모델의 두 갈래 길을 보여준다. RAG(Retrieval-Augmented Generation)의 부상도 이 풍경을 바꿨다. 모델 자체에 지식을 넣는 대신, 검색으로 실시간 지식을 주입하는 방식이 비용 대비 효과적인 대안으로 자리잡았다. BloombergGPT가 363B 토큰을 모델에 내재화한 것과 달리, RAG는 필요할 때 필요한 문서를 꺼내 쓴다. 금융처럼 정보가 빠르게 업데이트되는 도메인에서는 RAG의 이점이 특히 크다.

여전히 열린 것: 범용 모델의 금융 능력이 빠르게 향상되면서, 도메인 특화 모델의 필요성 자체에 대한 논쟁이 계속되고 있다. GPT-4나 Claude 같은 모델이 별도의 금융 훈련 없이도 상당한 수준의 금융 과제를 수행한다. 그러나 규제가 엄격한 금융 도메인에서는 세 가지 이유로 자체 모델이 필요하다는 주장이 여전히 강하다. 첫째, 데이터 통제 -- 고객의 금융 데이터가 외부 API로 나가는 것을 허용하지 않는 기관이 많다. 둘째, 추론 비용 -- 범용 모델의 API 호출 비용은 대량 처리 시 자체 모델보다 비싸다. 셋째, 감사 가능성 -- 금융 규제는 모델의 판단 근거를 설명할 수 있어야 한다고 요구하는데, 블랙박스 API로는 이 요구를 충족하기 어렵다.

또한, BloombergGPT가 보여준 "혼합 훈련" 접근법의 최적 비율도 열린 문제다. 금융 51% + 범용 49%라는 비율이 정말 최적이었는지, 금융 70% + 범용 30%이었다면 금융 성능이 더 올라가되 범용 성능이 어디까지 떨어졌을지 -- 논문은 이 ablation study를 수행하지 않았다. 데이터 비율과 성능의 관계를 체계적으로 탐구하는 것은 후속 연구의 몫으로 남아 있다.

Bloomberg 자신이 2026년 현재 BloombergGPT의 후속 모델을 발표했는지 여부도 명확하지 않다. 그러나 Bloomberg Terminal에 AI 기능이 꾸준히 추가되고 있는 것을 보면, 내부적으로는 모델이 계속 진화하고 있을 가능성이 높다. 열린 질문은 이것이다 -- 범용 모델의 천장이 올라갈수록, 도메인 특화 모델의 바닥도 함께 올라가야 하는가? 아니면 어느 시점에서 범용 모델이 도메인 특화 모델을 추월하여, 별도의 도메인 훈련이 불필요해지는 순간이 오는가?

마무리

이 글에서 다룬 내용을 한 문장으로 줄이면 이렇다: "남들이 읽지 못한 문서를 읽은 모델이, 남들이 풀지 못한 문제를 풀었다."

40년치 독점 데이터라는 해자(moat), 혼합 훈련이라는 전략, 그리고 도메인과 범용의 균형이라는 설계 철학. 이 세 요소가 결합하여, 50.6B 파라미터 모델이 176B 모델을 금융에서 압도하면서도 범용 능력을 유지하는 결과를 만들어냈다. 시리즈의 맥락에서 보면, 지금까지 읽은 ReAct, Reflexion, Voyager 같은 논문들이 에이전트의 행동 방식을 설계한 것이라면, BloombergGPT는 에이전트의 두뇌 자체를 특정 도메인에 맞게 재구성한 시도다. 행동 패턴이 아니라 지식의 밀도에 투자한 것이다.

다음 글에서는 BloombergGPT의 정반대 접근을 읽는다. FinGPT -- 독점 데이터와 막대한 훈련 비용 대신, 오픈소스와 경량 파인튜닝으로 금융 LLM을 민주화하려는 시도다. Bloomberg가 40년의 데이터와 수백만 달러의 계산 비용으로 쌓은 성벽을, FinGPT는 오픈소스 기반 모델과 공개 데이터, 그리고 PEFT로 우회한다.

금고를 가진 자의 전략과 금고 없는 자의 전략. 그 대비에서 도메인 특화 모델의 미래가 보인다.


이 글은 "Agentic AI 논문 읽기" 시리즈의 열다섯 번째 글입니다. 시리즈 전체 목록은 시리즈 페이지에서 확인할 수 있습니다.

Copyright ⓒ 2026 Theo All rights reserved.

Created by @Theo. Powered By @Vallista-land