AI가 PDF 속 복잡한 표를 읽어내는 방법: 혼자서 다 하려는 AI는 왜 실패할까?

AI Summary

복잡한 PDF 문서 내 표 데이터를 추출할 때, 하나의 거대 모델보다 여러 특화된 AI 에이전트가 협업하는 '멀티 에이전트' 방식이 훨씬 더 높은 정확도와 효율을 보입니다.

상상해보세요. 당신의 책상 위에 200페이지가 넘는 보고서들이 쌓여 있습니다. 그 안에는 복잡한 표와 데이터가 가득하죠. 당신은 매일 이 문서를 열어 데이터를 엑셀로 옮겨 적는 일을 합니다.

어느 날, 회사에서 “이제 AI에게 이 일을 맡기자”라고 합니다. 기대에 부풀어 AI에게 문서를 넘겼는데, 막상 결과를 보니 실망스럽습니다. 표가 엉망으로 섞여 있거나 아예 읽지 못하는 경우가 허다하기 때문이죠. 표 안의 셀이 합쳐져 있거나, 표 머리글(헤더)이 여러 줄로 복잡하게 얽혀 있는 경우 AI는 갈피를 잡지 못합니다.

똑똑한 AI가 왜 이런 단순한 표 하나 제대로 읽지 못하는 걸까요?

PDF, 데이터 추출의 ‘장애물’

우리가 흔히 쓰는 PDF 문서는 사실 데이터를 컴퓨터가 읽기 편하게 만들지 않았습니다. [Source 6] PDF는 본래 사람이 출력해서 보기 좋게 만드는 ‘인쇄용’ 문서입니다. [Source 6] 인간은 눈으로 표를 보면 직관적으로 이해하지만, 컴퓨터 입장에서는 글자와 선들이 페이지 어디에 위치하는지에 대한 정보만 있을 뿐, 이것이 ‘표’라는 논리적 구조를 파악하기가 매우 어렵습니다.

특히 현실의 문서들은 훨씬 복잡합니다. 똑같은 청구서라도 업체마다 200개가 넘는 서로 다른 레이아웃을 쓰기도 하고, [Source 6] 셀이 여러 개 합쳐져 있거나, 헤더가 2~3층으로 쌓여 있는 복잡한 구조도 흔합니다. [Source 15]

이게 왜 중요한가요?

기업에서 이런 데이터 추출은 핵심 업무입니다. 요즘 흔히 ‘RAG(검색 증강 생성)’라고 부르는 기술, 즉 AI에게 사내 문서를 공부시켜 질문에 답하게 만드는 시스템을 만들 때 깨끗하게 정리된 표 데이터는 그야말로 ‘금(gold)’과 같습니다. [Source 5] 데이터가 자동화되어 추출되지 않으면 데이터 분석이나 AI 서비스 도입 자체가 시작될 수 없기 때문입니다.

쉽게 말해서: ‘전문가 협업팀’ 방식

그동안 개발자들은 하나의 강력한 AI 모델을 만들어 이 복잡한 문제를 단번에 해결하려 했습니다. 마치 ‘천재 수학자 한 명’에게 모든 업무를 시키는 방식이었죠. 하지만 결과는 아쉬웠습니다. 단일 AI 모델은 표의 구조를 정확하게 파악하고 지정된 형식(JSON 등)에 맞춰 데이터를 출력하는 ‘스키마(구조) 준수’ 능력이 떨어졌기 때문입니다. [Source 1]

그래서 등장한 것이 바로 멀티 에이전트(Multi-agent) 방식입니다. 이건 마치 ‘팀 단위의 전문가 협업’과 같습니다.

비유하자면 이렇습니다. 하나만 잘하는 천재를 채용하는 대신, 6명의 전문가가 모인 팀을 꾸리는 것입니다.

스키마 에이전트(Schema Agent): 전체적인 데이터의 구조와 틀을 먼저 정의합니다. [Source 14]
추출 에이전트(Extraction Agent): 문서 속 표 데이터를 실제 조각으로 긁어옵니다. [Source 14]
의미 분석 에이전트(Semantic Agent): 수치와 텍스트의 맥락(의미)을 파악합니다. [Source 14]
검증 에이전트(Validation Agent): 결과물이 규칙에 맞는지 꼼꼼히 확인하고 수정합니다. [Source 14]

이들은 서로 의견을 공유하며 반복적으로 결과를 다듬습니다. [Source 14] 각자 전문 분야를 맡아 협업하니, 혼자서 모든 것을 다하려던 모델보다 훨씬 정확하고 안정적인 결과물을 만들어냅니다. [Source 11, Source 14]

어디까지 왔을까?

기술은 빠르게 진화하고 있습니다. 단순히 텍스트만 읽는 것이 아니라, 표의 구조와 셀의 위치를 시각적으로 이해하고 정밀하게 추출하는 모델들이 속속 등장하고 있습니다. [Source 15] 하지만 여전히 스캔 상태가 나쁘거나 비정상적인 레이아웃의 문서에서는 에이전트들의 정교한 분업과 협업이 필수적입니다. [Source 6, Source 8]

앞으로의 전망

앞으로는 AI 모델의 덩치만 키우기보다, 특화된 에이전트들을 조립하여 어떤 상황에서도 대응할 수 있는 ‘구성 가능한(Composable)’ 아키텍처가 주류가 될 것입니다. [Source 11] 머지않은 미래에 “이 PDF 속 표 데이터를 다 뽑아서 파일로 정리해줘”라고 말만 하면, 백그라운드에서 수많은 에이전트가 일사불란하게 움직이며 순식간에 데이터를 정리해주는 경험을 하게 될 것입니다. [Source 7]

MindTickleBytes의 AI 기자 시선

단순히 모델의 크기를 키우는 ‘덩치 키우기’ 시대는 가고 있습니다. 이제 AI의 미래는 얼마나 똑똑한 모델을 쓰느냐가 아니라, 얼마나 효율적으로 역할을 나누고 협업시키는 ‘관리 능력’에 달려 있습니다.

참고자료

TabAgent: A Multi-Agent Table Extraction Framework for Unstructured Documents

[Build an Enterprise-Scale Multimodal PDF Data Extraction Pipeline with an NVIDIA AI Blueprint

NVIDIA Technical Blog](https://developer.nvidia.com/blog/build-an-enterprise-scale-multimodal-document-retrieval-pipeline-with-nvidia-nim-agent-blueprint/)

Developer’s guide to multi-agent patterns in ADK - Google Developers Blog
PDF Table Extraction Showdown: Docling vs. LlamaParse vs. Unstructured
Parsing PDF Documents at Scale - Agentset

[Building an Agentforce Document Analyser with Table Extractor

by Justus van den Berg

Medium](https://medium.com/@justusvandenberg/building-an-agentforce-document-analyser-with-table-extractor-1c5134f056ce)

Agentic Table Extraction: 6-Agent Pipeline for Messy PDFs
Agentic Table Parsing: Multi-Model Document AI Architecture
Multi-Agent_pdfextractor - GitHub
PdfTable: A Unified Toolkit for Deep Learning-Based Table
TabAgent: A Multi-Agent Table Extraction Framework for Unstructured Documents (Bit.edu.cn)
Breakthrough Table Extraction with Document Pre-trained Transformer
NVIDIA NeMo Retriever Delivers Accurate Multimodal PDF Data Extraction

Share this article:

이 글을 얼마나 이해했나요?

Q1. PDF 문서에서 표 데이터를 추출하는 것이 어려운 근본적인 이유가 무엇일까요?

PDF는 처음부터 컴퓨터 데이터 추출용으로 설계되었기 때문
PDF는 사람이 읽기 좋게 인쇄용으로 설계되었기 때문
PDF 문서는 모든 형식이 통일되어 있기 때문

PDF는 원래 데이터 추출이 아닌 인쇄를 목적으로 설계되었기에, 기계가 데이터를 해석할 때 구조적인 혼란을 겪게 됩니다.

Q2. 왜 단일 AI 모델로만 표를 추출하는 방식보다 '멀티 에이전트' 방식이 더 선호될까요?

하나의 모델이 모든 비용을 절감해주기 때문
단일 모델이 더 똑똑해서
복잡한 문서를 전문 에이전트별로 나누어 정확도를 높일 수 있기 때문

멀티 에이전트 방식은 스키마 분석, 추출, 검증 등 전문화된 역할을 분담하여 전체적인 정확도와 구조 준수 능력을 향상합니다.

Q3. 표 데이터 추출 시 자주 발생하는 문서의 복잡한 구조는 무엇이 있을까요?

단순한 텍스트 문단
병합된 셀, 다중 수준 헤더, 중첩된 구조
이미지 없는 깨끗한 문서

병합된 셀, 복잡한 헤더, 중첩 구조 등은 일반적인 모델이 데이터를 읽을 때 매우 까다로운 요소들입니다.