시리즈의 글 (25개)
- Agentic AI 논문 읽기: CoALA — 언어 에이전트를 위한 인지 아키텍처
- Agentic AI 논문 읽기: ReAct — 생각과 행동을 엮은 최초의 패턴
- Agentic AI 논문 읽기: CoT — 생각의 사슬이 추론을 깨운 순간
- Agentic AI 논문 읽기: Toolformer — 언어 모델이 스스로 도구를 잡은 순간
- Agentic AI 논문 읽기: AutoGen — 대화로 엮는 다중 에이전트 시스템
- Agentic AI 논문 읽기: MetaGPT — SOP로 설계한 다중 에이전트 조직
- Agentic AI 논문 읽기: Multi-Agent Survey — 집단 지능의 지도를 펼치다
- Agentic AI 논문 읽기: Reflexion — 실패를 언어로 되감는 에이전트
- Agentic AI 논문 읽기: LATS — 트리 탐색으로 추론과 행동을 통합하다
- Agentic AI 논문 읽기: ETO — 실패 궤적으로 에이전트를 훈련하다
- Agentic AI 논문 읽기: AI Agents That Matter — 벤치마크의 함정을 파헤치다
- Agentic AI 논문 읽기: Paradigms — 도구 사용·계획·피드백의 삼각 구도
- Agentic AI 논문 읽기: Halo — DAG로 에이전트 워크플로우를 최적화하다
- Agentic AI 논문 읽기: Tool Use Evolution — 단일 도구에서 다중 오케스트레이션까지
- Agentic AI 논문 읽기: BloombergGPT — 금융 특화 대규모 언어 모델의 탄생
- Agentic AI 논문 읽기: FinGPT — 오픈소스 금융 LLM 프레임워크
- Agentic AI 논문 읽기: ₩on — 한국어 금융 NLP의 첫 번째 벤치마크
- Agentic AI 논문 읽기: DocLLM — 레이아웃 인식 문서 이해 모델
- Agentic AI 논문 읽기: FINCH — 스프레드시트 중심 재무 벤치마크
- Agentic AI 논문 읽기: InvestorBench — 금융 의사결정 에이전트 벤치마크
- Agentic AI 논문 읽기: Constitutional AI — 원칙 기반 자기 개선
- Agentic AI 논문 읽기: RLHF의 한계 — 인간 피드백 강화학습의 미해결 과제
- Agentic AI 논문 읽기: Autonomous Agents Survey — 자율 에이전트 구축의 해부도
- Agentic AI 논문 읽기: Rise and Potential — 뇌·지각·행동으로 본 에이전트 전망
- Agentic AI 논문 읽기: A-MEM — 제텔카스텐에서 영감받은 에이전트 기억 시스템
논문 정보
- 제목: DocLLM: A Layout-Aware Generative Language Model for Multimodal Document Understanding
- 저자: Dongsheng Wang, Natraj Raman 외 (JPMorgan AI Research)
- 출판: arXiv 2401.00908 (2024.01)
지난 글에서 다룬 Won은 한국어 금융 NLP의 첫 좌표계를 그렸다. 5,500개 문항과 80,000건의 인스트럭션 데이터로 "한국어 금융을 평가하려면, 한국어 금융에서 태어난 잣대가 필요하다"는 것을 실증했다. 하지만 Won이 평가한 과제들은 한 가지 전제를 공유한다 -- 입력이 깔끔한 텍스트라는 전제다. 객관식 문항이든 개방형 질의든, 모델에게 주어지는 것은 정돈된 문장이었다.
실세계의 금융 문서는 그렇지 않다. 송장에는 금액이 오른쪽 열에, 항목명이 왼쪽 열에, 날짜가 상단에 흩어져 있다. 계약서에는 조항 번호가 좌측 마진에, 본문이 중앙에, 서명란이 하단에 배치된다. 영수증의 "500,000"이라는 숫자는 "매출" 옆에 있을 때와 "비용" 옆에 있을 때 의미가 완전히 다르다. 텍스트의 의미는 텍스트 자체가 아니라 텍스트가 놓인 위치에도 의존한다. Won이 연 문은 텍스트의 언어를 이해하는 것이었다면, 이 글이 다루는 문은 텍스트의 공간을 이해하는 것이다.
금융 에이전트가 실세계에서 작동하려면, 깔끔한 텍스트뿐 아니라 이런 시각적으로 복잡한 문서를 이해해야 한다. 그런데 기존의 비전-언어 모델은 이미지 전체를 처리하는 비용이 크다. 더 가벼운 방법은 없는가?
2024년 1월, JPMorgan AI Research가 이 문제에 대한 경량 해법을 제시한다. DocLLM -- 비전 인코더 없이, 바운딩 박스 좌표만으로 문서 레이아웃을 이해하는 LLM 확장이다.
문서를 읽는다는 것 -- 레이아웃이 의미를 만드는 세계
사람이 문서를 읽는 방식을 관찰하면 흥미로운 점이 있다. 우리는 글자만 읽지 않는다. 송장을 받으면 시선이 먼저 상단의 발행 날짜로 가고, 오른쪽 하단의 총액으로 이동하고, 그 사이의 항목 테이블을 훑는다. 양식을 작성할 때는 레이블과 입력란의 공간적 인접성으로 무엇을 어디에 써야 하는지 파악한다. 계약서를 검토할 때는 조항 번호의 계층 구조로 논리적 관계를 읽는다. 이 모든 과정에서 공간적 배치가 의미 해석의 핵심 단서로 기능한다.
엔터프라이즈 문서 -- 송장, 영수증, 계약서, 주문서, 양식 -- 는 기업 코퍼스의 상당 부분을 구성한다. 이 문서들에서 정보의 의미는 텍스트 내용과 공간적 위치의 교차점에서 결정된다. 테이블의 같은 열에 있는 숫자들은 같은 범주에 속하고, 같은 행에 있는 값들은 같은 항목을 설명한다. 이 관계는 텍스트만으로는 포착할 수 없다. 문서를 순수한 텍스트 스트림으로 변환하는 순간, 공간이 담고 있던 의미의 절반이 사라진다.
이 문제에 대한 기존 접근은 크게 세 갈래였다. 첫째, GPT-3.5나 Llama 같은 텍스트 전용 LLM. 이들은 공간 레이아웃을 아예 무시한다. 문서를 직렬화하면 "Name John Doe Address 123 Main St" 같은 평면적 시퀀스가 되고, "John Doe"가 "Name"의 값인지 "Address"의 값인지 구분할 수 없다. 둘째, mPLUG-DocOwl이나 UReader 같은 비전-언어 모델. 문서를 이미지로 처리하므로 레이아웃을 포착할 수 있지만, 비전 인코더가 필요하다. 모델 크기와 처리 시간이 크게 증가한다. 셋째, LayoutLM이나 UDOP 같은 레이아웃 특화 모델. 효과적이지만 과제별 파인튜닝이 필요하고 범용성이 부족하다.
DocLLM의 핵심 관찰은 단순하면서도 강력하다: 문서 레이아웃을 이해하는 데 이미지 픽셀은 과잉이다. 비전 인코더는 문서의 배경색, 글꼴 스타일, 테두리 두께까지 처리한다. 하지만 "500,000이 매출 열에 있다"는 정보를 전달하는 데 그런 디테일은 불필요하다. OCR이 추출한 텍스트의 바운딩 박스 좌표 -- (left, top, right, bottom) 네 개의 숫자 -- 만으로 충분하다. 비전 인코더라는 무거운 도구 없이, 좌표라는 가벼운 신호로 같은 문제를 풀 수 있다는 것이다. 이것은 비유하자면, 문서를 보지 않고 만지는 것이다. 점자를 읽듯이, 위치만으로 구조를 파악하는 접근이다.
네 개의 시선 -- 분리된 공간 어텐션의 설계
DocLLM의 핵심 메커니즘은 Disentangled Spatial Attention이다. 이름이 암시하듯, 텍스트와 공간이라는 두 모달리티의 상호작용을 분리하여 계산한다.
표준 트랜스포머의 셀프 어텐션은 텍스트 토큰 간의 관계만 계산한다. Query와 Key가 모두 텍스트 임베딩에서 나온다. 하나의 시선만 존재하는 셈이다. DocLLM은 이것을 네 개의 시선으로 확장한다.
입력 시퀀스의 각 텍스트 토큰에 바운딩 박스 b_i = (left, top, right, bottom)가 대응한다. 이 좌표 정보를 별도의 히든 벡터 S로 인코딩하고, 어텐션 행렬 계산을 네 가지 교차 모달 점수로 분해한다:
- text-to-text: 표준 텍스트 간 어텐션. "매출"이라는 단어가 "이익"이라는 단어에 주의를 기울이는 것.
- text-to-spatial: 텍스트가 공간에 주의. "500,000"이라는 텍스트가 다른 토큰의 위치 정보를 참조하여, 자신이 "매출" 열에 있는지 "비용" 열에 있는지 파악하는 것.
- spatial-to-text: 공간이 텍스트에 주의. 특정 위치의 공간 벡터가 텍스트 내용을 참조하여, 그 위치에 어떤 종류의 정보가 있는지 학습하는 것.
- spatial-to-spatial: 공간 간 어텐션. 두 토큰의 위치 관계 자체를 직접 계산. 같은 열에 있는지, 같은 행에 있는지, 인접한 블록인지를 파악하는 것.
각 교차 모달 상호작용에는 가중치 하이퍼파라미터가 부여되어 상대적 중요도를 조절한다. 공간 벡터 S는 레이어 간에 재사용되지만, 각 레이어의 프로젝션 행렬은 독립적이어서 유연성을 유지한다.
이 설계의 핵심 장점은 효율성이다. 비전 인코더를 추가하면 수억 개의 파라미터가 늘어나지만, 분리된 공간 어텐션은 공간 모달리티용 프로젝션 행렬만 추가하면 된다. 파라미터 증가가 현저히 적다. S를 텍스트 임베딩 H에 단순히 더하는 방식(additive positional encoding)보다 모달리티 간 선택적 초점이 가능하다는 점도 중요하다. 더하면 섞이고, 분리하면 선택할 수 있다.
제거 실험이 이 설계의 가치를 입증한다. 텍스트만 사용할 때(text-to-text만) NTP 정확도는 35.43이었다. 여기에 spatial-to-spatial만 추가하면 39.12로 뛰어올랐다 -- 가장 큰 단일 향상이다. 네 가지를 모두 조합하면 39.02로, spatial-to-spatial 하나만 추가한 것과 거의 동일했다. 공간 간의 직접적 관계 파악이 문서 이해에서 가장 강력한 신호라는 의미다.
빈칸 채우기의 지혜 -- 블록 인필링 사전 학습
DocLLM의 두 번째 혁신은 사전 학습 목적의 설계에 있다. 일반적인 언어 모델은 좌에서 우로 다음 토큰을 예측하는 방식으로 사전 학습된다. 이것은 소설이나 기사처럼 선형적으로 흐르는 텍스트에는 적합하지만, 문서에는 맞지 않는다.
문서의 텍스트는 선형적으로 흐르지 않는다. 송장에서 발행 날짜, 수신자 주소, 항목 테이블, 합계 금액은 공간적으로 분산되어 있고, OCR이 추출하는 순서가 의미의 순서와 일치하지 않을 수 있다. 선행 토큰만으로 다음 토큰을 예측하는 방식은, 수평으로도 수직으로도 엇갈려 배치된 문서 요소들 사이의 관계를 포착하기 어렵다.
DocLLM은 이 문제를 두 가지 수정으로 해결한다.
첫째, 코히시브 블록(cohesive block) 단위의 처리. 개별 토큰이 아니라 OCR 엔진이 식별한 의미적으로 응집된 텍스트 블록 -- "Name", "John Doe", "Doctor" 같은 단위 -- 을 기본 처리 단위로 삼는다. 블록의 더 넓은 맥락이 개별 토큰보다 나은 이해를 제공한다. 송장에서 "Total Amount"와 "$1,500.00"은 별개의 토큰이 아니라 하나의 의미 단위로 묶여야 한다.
둘째, 인필링(infilling) 접근법. 선행 토큰만이 아니라 선행과 후행 토큰 모두에 조건화하여 예측한다. 무작위로 선택된 텍스트 블록을 마스킹하고, 마스킹된 블록의 앞뒤 맥락을 모두 활용하여 빈칸을 채우는 것이다.
이 접근은 세 가지 이점이 있다: 맥락적으로 관련된 완성이 가능하고, OCR 노이즈에 대한 견고성을 제공하며, 다양한 문서 필드 간의 관계를 더 잘 처리한다. 양식에서 "이름" 필드가 마스킹되어도, 주변의 "주소", "전화번호" 필드가 어떤 종류의 정보가 들어가야 하는지 맥락을 제공하는 것이다.
형식적으로는 이렇게 동작한다. 전체 K개 텍스트 블록 중 M개(M이 K보다 훨씬 적은)를 무작위로 마스킹하고, 마스킹된 블록의 연속 토큰을 특수 토큰 [M]으로 교체한다. 각 마스킹된 블록에 시작 토큰 [S]와 끝 토큰 [E]를 부여하여, 모델이 시퀀스의 어디서부터 어디까지를 채워야 하는지 명확히 한다.
제거 실험에서 인과 학습만 사용하면 32.6, 인과 학습에 공간 모달리티를 추가하면 36.2, 블록 인필링에 공간 모달리티를 추가하면 39.1이었다. 블록 인필링이 인과 학습 대비 +2.9의 NTP 향상을 가져왔고, 공간 모달리티와의 결합 효과는 그보다 더 컸다. 흥미로운 부가 발견도 있다 -- 인과 디코더와 프리픽스 디코더 간 차이가 미미했다. 프리픽스 디코더의 양방향 어텐션이 이 맥락에서는 추가적 이점을 제공하지 않는다는 것이다. 읽기의 방향을 하나에서 둘로 늘린 것, 그리고 단위를 토큰에서 블록으로 넓힌 것이 문서 이해의 품질을 끌어올렸다.
숫자가 말하는 것 -- 16개 데이터셋의 증거
DocLLM은 네 가지 핵심 문서 지능 과제에 대해 평가되었다: VQA(시각적 질의응답), NLI(자연어 추론), KIE(핵심 정보 추출), CLS(문서 분류). 16개 데이터셋, 636K 학습 인스턴스, 97K 테스트 인스턴스에 걸친 포괄적 실험이다.
사전 학습에는 IIT-CDIP Test Collection(500만 문서, 1,600만 페이지)과 DocBank(50만 문서)를 사용하여 총 38.7억 토큰을 학습했다. 인스트럭션 튜닝에는 VQA 145K, NLI 104K, KIE 237K, CLS 150K -- 네 과제에 걸친 636K 학습 인스턴스를 사용했다. 모델은 DocLLM-1B(Falcon-1B 기반, 24레이어)와 DocLLM-7B(Llama2-7B 기반, 36레이어) 두 가지 변형으로 구축했다. 7B 모델은 8개 24GB A10g GPU에서 16비트 혼합 정밀도로 훈련되었다.
SDDS(Same Datasets, Different Splits) 평가 결과:
| 과제 | 데이터셋 | GPT-4+OCR | Llama2+OCR | DocLLM-7B |
|---|---|---|---|---|
| VQA | DocVQA | 82.8 | 47.4 | 69.5 |
| VQA | BizDocs | 76.4 | 48.8 | 86.7 |
| NLI | TabFact | 77.1 | 48.2 | 66.4 |
| KIE | KLC | 45.9 | 27.8 | 60.3 |
| KIE | CORD | 58.3 | 13.8 | 67.4 |
| KIE | SROIE | 90.6 | 56.4 | 91.9 |
| KIE | BizDocs | 66.1 | 10.8 | 95.9 |
| CLS | RVL-CDIP | 68.2 | 32.8 | 91.8 |
| CLS | BizDocs | 84.9 | 40.9 | 99.4 |
결과의 패턴은 명확하다. DocLLM-7B는 동등 크기 모델 기준 16개 데이터셋 중 14개에서 SOTA를 달성했다. 특히 KIE와 CLS -- 레이아웃에 가장 의존적인 과제 -- 에서 GPT-4를 일관되게 압도했다. BizDocs KIE에서 95.9 대 66.1, BizDocs CLS에서 99.4 대 84.9 -- 격차가 단순한 우위가 아니라 압도적이다. 송장에서 금액을 추출하고, 문서 유형을 분류하는 과제에서 공간 좌표가 이미지 이해보다 더 직접적인 신호가 된다는 것이다. 반면 VQA에서는 GPT-4가 우세했는데, 추론과 추상화의 복잡도가 높은 과제에서는 모델 크기의 차이가 드러났다.
일반화 능력도 인상적이다. STDD(Same Tasks, Different Datasets) 평가에서, 학습 시 보지 못한 5개 데이터셋 중 4개에서 최고 점수를 기록했다. Llama2-7B 대비 15~61%의 성능 향상이었다. 특히 KIE 과제에서의 일반화가 두드러졌는데, 새로운 형태의 송장이나 양식을 처음 보더라도 공간 패턴의 유사성을 포착하여 핵심 정보를 추출할 수 있었다. 분류 과제에서만 약세를 보였는데, 이는 단일 분류 데이터셋(RVL-CDIP)으로만 훈련된 한계다. 더 다양한 문서 유형으로 분류 학습을 확장하면 이 격차는 좁힐 수 있을 것이다.
DocLLM-1B도 7B 모델에 가까운 성능을 보여, 아키텍처 자체의 효과가 모델 규모보다 중요함을 시사한다. 1B라는 작은 모델이 레이아웃 집약적 과제에서 경쟁력을 가진다는 것은, 분리된 공간 어텐션이라는 구조적 혁신이 단순한 스케일링보다 효율적인 경로일 수 있다는 증거다.
보이지 않는 것과 열리지 않는 문 -- 한계
DocLLM의 한계는 그 강점의 이면에 있다.
첫째, OCR 의존성. DocLLM은 비전 인코더를 제거한 대가로 OCR에 전적으로 의존한다. 바운딩 박스의 품질이 OCR 엔진의 정확도에 직결되며, OCR이 텍스트를 잘못 인식하거나 바운딩 박스를 부정확하게 잡으면 모델의 성능이 하락한다. 논문 자체도 LayoutLMs의 선행 연구를 인용하며, Microsoft Azure OCR API가 TesseractOCR보다 우수한 성능을 보였음을 언급한다. OCR이라는 선행 단계의 품질이 모델의 천장을 결정하는 구조다.
둘째, 순수 시각 요소의 부재. 바운딩 박스는 텍스트의 위치를 알려주지만, 이미지 자체의 내용은 전달하지 않는다. 문서에 포함된 차트, 도장, 서명, 로고, 워터마크 -- 이런 비텍스트 시각 요소를 DocLLM은 이해할 수 없다. 논문은 향후 경량 방식으로 비전을 통합할 계획을 밝히지만, 현재 버전에서는 텍스트와 좌표가 전부다.
셋째, 비공개 모델. DocLLM은 JPMorgan AI Research의 산물이며, 모델 가중치가 공개되지 않았다. 재현 실험이 불가능하고, 커뮤니티가 개선에 기여할 수 없다. BloombergGPT와 마찬가지로, 금융 기관이 만든 모델이 금융 기관 안에 머무는 패턴이 반복된다.
넷째, 프롬프트 민감도. Zero-shot 결과가 프롬프트 문구에 민감하다는 점도 보고되었다. 논문에서는 3명의 독립적 프롬프트 엔지니어가 5라운드에 걸쳐 프롬프트를 정제했다. 실무 적용 시 프롬프트 설계에 상당한 공수가 필요할 수 있다는 의미다.
이 한계들은 DocLLM의 설계적 선택과 직결된다. 경량화를 위해 비전을 포기한 대가가 OCR 의존과 시각 요소 미인식이고, 금융 기관의 연구인 만큼 비공개는 예견된 귀결이다. 공학적 트레이드오프의 전형적 사례다 -- 하나를 얻으면 하나를 잃는다.
2026년의 시선 -- 좌표만으로 충분한가
DocLLM이 발표된 2024년 1월 이후 2년이 지났다. 그 사이 문서 이해 분야는 두 갈래로 갈라졌다.
한쪽은 비전-언어 모델의 급속한 발전이다. GPT-4V, Claude의 Vision 기능, Gemini의 멀티모달 이해 -- 이들은 문서를 이미지로 통째로 이해한다. OCR이 필요 없고, 차트도 읽고, 서명도 인식한다. DocLLM이 제거한 비전 인코더를, 2026년의 모델들은 더 효율적으로 통합했다. 비전 인코더의 비용이 급격히 낮아지면서, DocLLM의 "비전 없이도 된다"는 명제는 "비전이 있으면 더 좋고, 비용도 감당할 수 있다"는 현실에 도전받고 있다. 2024년 초에는 비전 인코더가 사치였지만, 2026년에는 표준이 되었다.
다른 쪽은 DocLLM이 열어젖힌 공간 인식 접근법의 심화다. 바운딩 박스라는 경량 신호의 가치는 여전히 유효하다. 엣지 디바이스에서의 문서 처리, 대량 문서 배치 처리, 비전 인코더의 지연이 허용되지 않는 실시간 시스템 -- 이런 맥락에서 좌표만으로 레이아웃을 이해하는 접근은 여전히 경쟁력이 있다. 특히 KIE -- 송장에서 금액을 추출하고, 양식에서 필드를 인식하는 과제 -- 에서 공간 좌표가 이미지 픽셀보다 더 직접적인 신호라는 DocLLM의 통찰은 후속 연구들에 의해 반복적으로 확인되었다.
흥미로운 것은 이 두 갈래가 대립이 아니라 상보적이라는 점이다. 비전-언어 모델이 문서의 전체적 이해에 강하다면, 공간 좌표 기반 접근은 구조화된 정보 추출에 강하다. 실무에서는 두 가지가 모두 필요하다. 문서를 분류하고 전체적 맥락을 파악하는 데는 비전이 유리하고, 특정 필드의 값을 정확히 추출하는 데는 좌표가 유리하다. 2026년의 최선의 문서 이해 파이프라인은 아마도 이 두 접근을 결합하는 것일 것이다.
DocLLM의 진정한 유산은 특정 모델이 아니라 설계 철학에 있다. "문서 이해에 필요한 최소한의 신호는 무엇인가"라는 질문을 던지고, "텍스트 + 좌표로 충분하다"는 답을 실증한 것이다. 이 철학은 비전-언어 모델이 지배하는 2026년에도 유효하다 -- 최소한의 신호로 최대한의 이해를 추구하는 것은 효율성의 핵심 원리이기 때문이다. BloombergGPT가 "도메인 데이터의 힘"을, FinGPT가 "오픈소스의 민주화"를 보여줬다면, DocLLM은 "구조적 신호의 효율성"을 보여준 논문이다.
마무리
한 문장으로 줄이면 이렇다: "문서를 이해하는 데 눈이 꼭 필요하지는 않다 -- 손끝으로 위치를 더듬는 것만으로도 레이아웃은 읽힌다."
DocLLM은 비전 인코더라는 무거운 눈을 제거하고, 바운딩 박스라는 가벼운 촉각으로 문서를 이해하는 모델이다. 분리된 공간 어텐션으로 네 가지 교차 모달 상호작용을 계산하고, 블록 인필링으로 문서의 비선형적 구조에 대응했다. 16개 데이터셋 중 14개에서 SOTA를 달성하고, 미지의 데이터셋에서도 견고하게 일반화되었다. 공간 좌표만으로 GPT-4를 KIE와 CLS에서 넘어선 것은, 문서 이해에서 진짜 중요한 신호가 무엇인지 다시 생각하게 만든다.
Won이 금융 텍스트를 평가하는 잣대를 세웠다면, DocLLM은 금융 문서의 공간적 의미를 읽는 방법을 제시했다. 다음 글에서는 이 문서 이해 능력이 실세계에서 어떻게 시험받는지를 본다. FINCH -- Enron의 실제 스프레드시트에서 추출한 172개 복합 워크플로우로, GPT 5.1 Pro조차 38.4%만 통과하는 엔터프라이즈 금융의 극한 난이도를 드러낸다.
이 글은 "Agentic AI 논문 읽기" 시리즈의 열여덟 번째 글입니다. 시리즈 전체 목록은 시리즈 페이지에서 확인할 수 있습니다.