Agentic AI 논문 읽기: CoT — 생각의 사슬이 추론을 깨운 순간

Written by Theo2026년 4월 1일 · 7 min read

시리즈의 글 (25개)

  1. Agentic AI 논문 읽기: CoALA — 언어 에이전트를 위한 인지 아키텍처
  2. Agentic AI 논문 읽기: ReAct — 생각과 행동을 엮은 최초의 패턴
  3. Agentic AI 논문 읽기: CoT — 생각의 사슬이 추론을 깨운 순간
  4. Agentic AI 논문 읽기: Toolformer — 언어 모델이 스스로 도구를 잡은 순간
  5. Agentic AI 논문 읽기: AutoGen — 대화로 엮는 다중 에이전트 시스템
  6. Agentic AI 논문 읽기: MetaGPT — SOP로 설계한 다중 에이전트 조직
  7. Agentic AI 논문 읽기: Multi-Agent Survey — 집단 지능의 지도를 펼치다
  8. Agentic AI 논문 읽기: Reflexion — 실패를 언어로 되감는 에이전트
  9. Agentic AI 논문 읽기: LATS — 트리 탐색으로 추론과 행동을 통합하다
  10. Agentic AI 논문 읽기: ETO — 실패 궤적으로 에이전트를 훈련하다
  11. Agentic AI 논문 읽기: AI Agents That Matter — 벤치마크의 함정을 파헤치다
  12. Agentic AI 논문 읽기: Paradigms — 도구 사용·계획·피드백의 삼각 구도
  13. Agentic AI 논문 읽기: Halo — DAG로 에이전트 워크플로우를 최적화하다
  14. Agentic AI 논문 읽기: Tool Use Evolution — 단일 도구에서 다중 오케스트레이션까지
  15. Agentic AI 논문 읽기: BloombergGPT — 금융 특화 대규모 언어 모델의 탄생
  16. Agentic AI 논문 읽기: FinGPT — 오픈소스 금융 LLM 프레임워크
  17. Agentic AI 논문 읽기: ₩on — 한국어 금융 NLP의 첫 번째 벤치마크
  18. Agentic AI 논문 읽기: DocLLM — 레이아웃 인식 문서 이해 모델
  19. Agentic AI 논문 읽기: FINCH — 스프레드시트 중심 재무 벤치마크
  20. Agentic AI 논문 읽기: InvestorBench — 금융 의사결정 에이전트 벤치마크
  21. Agentic AI 논문 읽기: Constitutional AI — 원칙 기반 자기 개선
  22. Agentic AI 논문 읽기: RLHF의 한계 — 인간 피드백 강화학습의 미해결 과제
  23. Agentic AI 논문 읽기: Autonomous Agents Survey — 자율 에이전트 구축의 해부도
  24. Agentic AI 논문 읽기: Rise and Potential — 뇌·지각·행동으로 본 에이전트 전망
  25. Agentic AI 논문 읽기: A-MEM — 제텔카스텐에서 영감받은 에이전트 기억 시스템

Agentic AI 논문 읽기: CoT — 생각의 사슬이 추론을 깨운 순간

논문 정보

  • 제목: Chain-of-Thought Prompting Elicits Reasoning in Large Language Models
  • 저자: Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Brian Ichter, Fei Xia, Ed H. Chi, Quoc V. Le, Denny Zhou (Google Research, Brain Team)
  • 출판: NeurIPS 2022
  • arXiv: 2201.11903

이 시리즈에서 첫 번째 글은 지도를 펼쳤다. CoALA가 제시한 기억, 행동, 판단의 세 축이라는 좌표계다. 두 번째 글은 그 지도 위에 처음으로 에이전트를 올려놓았다. ReAct가 보여준 "생각한 다음 행동하고, 결과를 보고 다시 생각한다"는 패턴이다. 세 번째 글에서는 시간을 거슬러 올라간다. ReAct가 확장한 그 추론 — LLM이 중간 단계를 밟으며 답에 도달하는 능력 — 은 어디서 시작됐는가?

2022년 1월이다. ChatGPT는 아직 11개월 뒤의 일이고, GPT-3가 대규모 언어 모델의 전선이다. 이 시점에 LLM은 놀라운 언어 능력을 보여주고 있었지만, 한 가지 분명한 한계가 있었다. 추론을 못 한다는 것이다. 다단계 산술 문제를 주면 틀리고, 상식적 판단이 필요한 질문에서 헤매고, 기호를 조작하는 과제에서 무너졌다. 모델을 키우면 나아지리라 기대했지만, 스케일링만으로는 추론 과제의 정확도가 좀처럼 오르지 않았다.

Google Research의 Jason Wei 등은 이 벽에 놀랍도록 단순한 방법으로 구멍을 냈다. 프롬프트에 "풀이 과정"을 함께 보여주는 것이다. 이 논문이 제안한 사고의 연쇄 프롬프팅(Chain-of-Thought prompting, CoT)은 지금으로부터 4년 전에 발표되었지만, 그 핵심 원리 — "생각의 과정을 펼쳐 보이면 더 잘 추론한다" — 는 오늘날 모든 AI 시스템의 기본 전제가 되었다. 이 글에서는 그 발견이 어떻게 이루어졌고, 무엇을 밝혔으며, 4년이 지난 지금 어떤 위치에 있는지를 살펴본다.

"답만 말하지 말고, 풀이 과정을 보여줘"

CoT의 아이디어는 한 문장으로 요약된다. 퓨샷 프롬프트의 예시에 중간 추론 단계를 포함시킨다.

이전의 퓨샷 프롬프팅은 이런 형태였다. 질문과 답만 보여준다.

Q: Roger has 5 tennis balls. He buys 2 more cans of tennis balls.
   Each can has 3 tennis balls. How many tennis balls does he have now?
A: The answer is 11.

CoT 프롬프팅은 질문과 답 사이에 풀이 과정을 끼워 넣는다.

Q: Roger has 5 tennis balls. He buys 2 more cans of tennis balls.
   Each can has 3 tennis balls. How many tennis balls does he have now?
A: Roger started with 5 balls. 2 cans of 3 tennis balls each is
   6 tennis balls. 5 + 6 = 11. The answer is 11.

차이는 "5 + 6 = 11"이라는 중간 단계를 명시적으로 보여주느냐의 여부뿐이다. 이 예시 몇 개를 프롬프트에 넣으면, 모델이 그 형식을 따라 자기도 중간 단계를 펼치며 답에 도달한다. 파인튜닝도, 보상 함수도, 추가 학습 데이터도 필요 없다. 기존 모델에 프롬프트만 바꿔서 넣으면 된다.

논문은 이 접근법이 네 가지 매력적인 속성을 가진다고 정리했다.

첫째, 다단계 문제를 중간 단계로 분해한다. 한 번에 풀기 어려운 문제를 각각은 풀 수 있는 작은 단계로 나눈다. 더 어려운 문제에는 자연스럽게 더 많은 추론 단계가 할당된다.

둘째, 해석 가능한 창(window)을 제공한다. 모델이 어떤 경로로 답에 도달했는지 볼 수 있으니, 어디서 틀렸는지 진단할 수 있다. 블랙박스가 아닌, 들여다볼 수 있는 추론이다.

셋째, 범용적으로 적용 가능하다. 수학만이 아니라, 상식 추론, 기호 조작, 인간이 언어로 풀이할 수 있는 모든 과제에 원칙적으로 적용할 수 있다.

넷째, 사용이 간편하다. 기존의 대규모 언어 모델에 프롬프트 예시 몇 개만 수정하면 바로 적용 가능하다. 별도의 모델 학습이나 아키텍처 변경이 필요 없다.

GSM8K의 도약 — 숫자로 읽는 추론의 탄생

논문은 세 가지 영역에서 CoT를 검증했다. 산술 추론 5개, 상식 추론 5개, 기호적 추론 2개 — 총 12개 벤치마크다. 결과는 놀라웠다.

가장 극적인 변화는 GSM8K에서 일어났다. GSM8K(Grade School Math 8K)는 OpenAI가 2021년에 공개한 벤치마크로, 초등학교 수준의 수학 문제 8,500개를 모아놓은 데이터셋이다. "가게에 사과가 23개 있었다. 점심에 20개를 팔고 6개를 더 들여왔다면 몇 개인가?" 같은 문제다. 인간에게는 쉽지만, 2~8단계의 산술 연산을 순서대로 수행해야 하기 때문에 LLM에게는 난관이었다. 논문이 쓰인 시점의 최고 기록은 파인튜닝된 GPT-3에 검증기(verifier)까지 붙인 시스템이 달성한 55%였다. 대규모 학습 데이터와 전용 모델이 필요한 접근이었다.

PaLM 540B에 CoT 프롬프팅을 적용한 결과는 이랬다.

벤치마크 표준 프롬프팅 CoT 프롬프팅 당시 SOTA
GSM8K (다단계 산술) 17.9% 56.9% 55% (파인튜닝 GPT-3+검증기)
SVAMP (산술 변형) 기존 수준 SOTA 달성 -
MAWPS (기본 산술) 기존 수준 SOTA 달성 -

8개의 수작업 예시만으로, 대규모 학습 데이터로 파인튜닝한 전용 시스템을 넘어섰다. 17.9%에서 56.9%로 — 세 배 이상의 도약이다.

산술만이 아니었다. 상식 추론에서도 변화가 뚜렷했다. StrategyQA에서 PaLM 540B는 75.6%를 달성하여 이전 최고 기록 69.4%를 넘었다. Sports Understanding에서는 95.4%로, 비전문가 인간의 정확도 84%를 웃돌았다. 기호적 추론에서는 Last Letter Concatenation과 Coin Flip 과제에서 거의 100% 정확도에 도달했다.

여기서 주목할 패턴이 하나 있다. CoT의 효과는 문제가 어려울수록 커졌다. GSM8K처럼 여러 단계가 필요한 문제에서는 성능이 세 배 이상 올랐지만, 한 단계로 풀리는 쉬운 문제에서는 거의 개선이 없었다. CoT가 단순히 "답을 더 잘 맞히는" 기법이 아니라, 다단계 추론이라는 특정 능력을 활성화하는 메커니즘임을 시사하는 결과다.

100억 개의 파라미터가 넘어야 하는 벽

논문의 가장 의미심장한 발견은 성능 수치가 아니라, 그 수치가 나타나는 조건에 있었다.

CoT 프롬프팅은 모든 모델에서 효과가 있지 않았다. 약 100B(1000억) 파라미터 미만의 모델에서는 CoT가 성능을 개선하지 못했고, 오히려 표준 프롬프팅보다 성능이 떨어지는 경우도 있었다. 작은 모델은 문법적으로 유창하지만 논리적으로는 엉터리인 사고의 연쇄를 생성했다. "Roger는 5개의 공을 가지고 있다. 2캔을 더 샀다. 각 캔에 3개가 있다. 그러므로 답은 9이다."처럼 — 문장은 자연스럽지만 계산이 틀리는 식이다.

100B를 넘어서면 양상이 달라진다. 사고의 연쇄가 논리적으로 올바르게 전개되기 시작하고, 성능이 극적으로 올라간다. 논문은 이것을 모델 규모의 창발적 능력(emergent ability)이라 불렀다. 양을 늘리면 어느 순간 질이 바뀌는 현상이다.

이 발견이 중요한 이유는, 추론이 "더 많은 데이터로 학습시키면 점진적으로 나아지는" 종류의 능력이 아님을 보여줬기 때문이다. 일정 규모 아래에서는 전혀 나타나지 않다가, 문턱을 넘으면 갑자기 출현한다. 마치 물이 99도까지는 액체이다가 100도에서 끓기 시작하는 것처럼 — 임계점이 존재한다.

2022년 당시, 이 임계점은 PaLM 540B, GPT-3 175B 같은 최대 규모 모델에서만 도달 가능했다. 실험실 안의 몇 개 모델만이 "추론"할 수 있었다는 뜻이다. 이것은 CoT를 발견인 동시에 한계로 만들었다 — 일반 연구자나 기업이 접근할 수 있는 모델에서는 쓸 수 없는 기법이었다. 오늘날에는 지시어 튜닝과 추론 특화 훈련 같은 기법들이 이 문턱을 크게 낮췄지만, "추론은 규모에서 창발한다"는 원리 자체는 여전히 유효하다.

자연어가 핵심이다 — 제거 실험이 밝힌 것들

CoT가 효과가 있다는 것은 알겠는데, 왜 효과가 있는가? 논문은 이 질문에 답하기 위해 정교한 제거 실험(ablation study)을 설계했다. 세 가지 대안을 시험하여, CoT의 어떤 측면이 핵심인지를 분리해냈다.

첫 번째 실험: 자연어 대신 수학 수식만 출력하게 했다. 풀이 과정을 자연어 문장이 아닌 방정식으로만 표현하도록 프롬프트를 구성한 것이다. 결과는 GSM8K에서 효과가 미미했다. 자연어가 사라지니 성능도 사라졌다. 논문은 이것을 GSM8K 수준의 문제가 가진 의미적 복잡성 — 문장 속에 숨겨진 관계와 조건을 파악하는 것 — 이 수식만으로는 포착되지 않기 때문이라 분석했다.

두 번째 실험: "더 많은 토큰을 생성하니까 더 많이 생각하는 것 아닌가?"라는 직관을 검증했다. CoT가 중간 단계를 서술하면서 더 많은 토큰을 생성하므로, 그 추가 계산 시간(토큰 수) 자체가 핵심일 수 있다는 가설이다. 이를 분리하기 위해, 사고의 연쇄와 같은 길이의 점(...)만 출력하도록 했다. 결과는 표준 프롬프팅과 동일한 성능이었다. 더 많은 토큰을 생성하는 것 자체는 아무 효과가 없었다. 핵심은 토큰의 양이 아니라 내용이었다.

세 번째 실험: 사고의 연쇄를 답 뒤에 배치했다. "CoT가 사전 훈련 중 획득한 관련 지식에 더 잘 접근하도록 돕는 것일 수 있다"는 가설이다. 만약 그렇다면, 사고의 연쇄가 답 앞에 있든 뒤에 있든 관련 지식을 활성화하는 효과는 같아야 한다. 결과는 역시 기준선과 동일했다. 답을 내기 전에 단계를 밟아가며 추론하는 순서 자체가 핵심임이 확인됐다. 지식 활성화가 아니라 순차적 추론이 CoT의 효과를 만들어낸다.

이 세 실험을 종합하면 결론은 명확하다. CoT의 효과는 추가 계산 시간에서 오는 것이 아니고, 관련 지식의 활성화에서 오는 것도 아니고, 자연어로 중간 추론 단계를 순차적으로 전개하는 것 자체에서 온다. 언어가 추론의 매체(medium)로 기능한다는 발견이다.

논문은 견고성도 검증했다. 세 명의 독립된 주석자가 각자의 스타일로 사고의 연쇄를 작성했을 때, 그리고 의도적으로 간결한 문체로 작성했을 때에도 모두 표준 프롬프팅을 큰 폭으로 능가했다. 특정한 문체나 형식에 의존하지 않는다는 뜻이다. 중요한 것은 표현의 스타일이 아니라 추론의 구조다.

안락의자 위의 철학자 — CoT의 한계

논문은 효과를 보고하는 데 그치지 않고, 실패를 정직하게 분석했다. LaMDA 137B가 GSM8K에서 생성한 사고의 연쇄를 수동으로 검토한 결과는 흥미로웠다.

정답을 낸 50개 샘플 중 48개에서 사고의 연쇄가 논리적으로, 수학적으로 올바랐다. 나머지 2개는 추론에 오류가 있었지만 우연히 정답에 도달한 경우였다. 즉, 정답의 96%는 올바른 추론의 결과였다.

오답을 낸 50개 샘플에서는 46%가 사소한 실수였다 — 계산기 오류(8 × 4 = 24라고 쓰는 식), 기호 매핑 실수, 추론 단계 하나를 빠뜨리는 것. 사고의 흐름은 올바르지만 세부 실행에서 미끄러진 경우다. 나머지 54%는 문제의 의미를 잘못 이해하거나 추론의 일관성이 무너진 주요 오류였다.

이 분석이 드러내는 CoT의 근본적 한계는, 모델이 자기 머릿속에만 갇혀 있다는 것이다. 외부 세계를 확인하지 않고, 파라미터에 저장된 내부 지식만으로 사고를 전개한다. 그 지식이 맞으면 추론이 정확하지만, 틀리면 거짓된 전제 위에 그럴듯한 논리를 쌓아 올린다. 이 시리즈의 두 번째 글에서 다룬 ReAct 논문이 정확히 이 지점에서 출발했다. "안락의자에서 내려와 세상과 부딪혀야 한다" — 추론과 행동을 엮어야 한다는 것이 ReAct의 핵심 문제의식이었고, 그 문제의식의 출발점이 바로 CoT의 이 한계였다.

논문 자체도 한계를 인정했다. 첫째, LLM이 정말로 "추론"하는 것인지, 훈련 데이터에서 본 유사한 패턴을 재현하는 것인지는 미해결 질문이다. 둘째, 올바른 추론 경로의 보장이 없다 — CoT는 맞는 답에도, 틀린 답에도 이를 수 있다. 셋째, 100B 이상 모델에서만 작동하므로 당시 기준으로 실서비스 비용이 높았다.

한계에서 태어난 것들 — CoT 이후의 진화

이 한계들 각각에서 후속 연구가 태어났다. CoT-SC(Self-Consistency)는 같은 문제에 대해 여러 사고의 연쇄를 독립적으로 생성하고 다수결로 답을 고르는 방식으로 신뢰성을 높였다. Zero-shot CoT는 "Let's think step by step"이라는 한 줄만으로 예시 없이도 사고의 연쇄를 유도할 수 있음을 보였다. Tree of Thoughts는 하나의 선형적 사슬이 아닌 여러 갈래의 추론 경로를 탐색하고 평가하는 구조를 제안했다. 그리고 ReAct는 추론 사이에 외부 행동을 끼워 넣어 사실 확인의 루프를 만들었다.

가장 극적인 진화는 추론 모델(reasoning model)의 등장이다. OpenAI의 o1, o3 같은 모델은 CoT를 프롬프팅 기법이 아닌 훈련 과정 자체에 내재화했다. 사용자가 "풀이 과정을 보여줘"라고 요청하지 않아도, 모델이 내부적으로 긴 추론 사슬을 생성한 뒤 최종 답을 출력한다. CoT는 프롬프트에서 시작해, 모델의 본성이 되었다.

CoALA의 좌표계 위에 놓은 CoT

이 시리즈의 첫 글에서 소개한 CoALA의 좌표계 위에 CoT를 놓으면, 그 위치가 선명하게 드러난다.

CoT의 상태
기억 작업 기억(프롬프트 컨텍스트)만. 장기 기억 없음
바깥 행동 없음. 최종 답 출력이 전부
안 행동 추론만. 검색도, 학습도 없음
의사결정 제안만. 단일 사슬, 평가도 선택도 없음

ReAct보다도 빈칸이 많다. ReAct는 최소한 외부 행동(위키피디아 API 검색)이 있었다. CoT에는 그것조차 없다. 에이전트라고 부르기도 어렵다 — 엄밀히 말하면 CoT는 에이전트가 아니라 추론 기법이다. 환경과 상호작용하지 않고, 프롬프트라는 작업 기억 안에서 시작하고 끝난다.

하지만 CoT가 증명한 것은 가장 근본적인 것이었다. LLM이 추론할 수 있다는 것. 문제를 단계로 분해하고, 각 단계를 논리적으로 연결하여, 올바른 답에 도달할 수 있다는 것. CoALA가 정의한 "추론 = 작업 기억의 읽기/쓰기"의 가장 순수한 구현이 바로 CoT다. 프롬프트(작업 기억)를 읽고, 중간 단계를 기록하고(쓰기), 그 위에서 다음 단계를 전개하는(읽기) 과정의 반복이다.

진화의 경로는 이렇다. CoT가 추론을 증명했고, ReAct가 추론에 행동을 엮었고, Tree of Thoughts가 추론에 평가를 더했고, Reflexion이 추론에 반성을 붙였다. CoALA가 좌표계이고 ReAct가 그 위에 놓인 첫 번째 에이전트라면, CoT는 원점이다. 모든 것이 시작된 (0, 0) 좌표.

마무리 — 시작점의 무게

CoT의 전부를 한 문장으로 줄이면 이렇다. "답만 말하지 말고, 풀이 과정을 보여줘."

이 한 문장이 바꾼 것은 LLM에 대한 근본 전제다. CoT 이전에 LLM은 뛰어난 패턴매칭 엔진이었다. 입력에 가장 그럴듯한 출력을 매핑하는 시스템이다. CoT 이후에 LLM은 잠재적 추론자가 되었다. 중간 단계를 밟으며 새로운 답에 도달할 수 있는 시스템이다. 이 전제의 전환이 없었다면, 추론과 행동을 엮겠다는 ReAct의 발상도, 에이전트를 인지 아키텍처로 분류하겠다는 CoALA의 시도도 성립하지 않았을 것이다.

4년이 지난 지금, "풀이 과정을 보여줘"는 더 이상 프롬프트에 적는 지시가 아니다. 모델 훈련 과정에 흡수되었고, 추론 모델이라는 새로운 카테고리를 만들었으며, 에이전트가 사고하는 방식의 기본 문법이 되었다. 기법은 대체되지만, 좋은 발견은 전제가 된다. CoT는 기법에서 출발해, 전제가 되었다.


이 글은 "Agentic AI 논문 읽기" 시리즈의 세 번째 글입니다.

Copyright ⓒ 2026 Theo All rights reserved.

Created by @Theo. Powered By @Vallista-land