AI 如何讀取 PDF 中的複雜表格:為什麼試圖單打獨鬥的 AI 會失敗?

抽象表現多個專業 AI 代理分工處理複雜 PDF 文檔的圖像
AI Summary

在從複雜的 PDF 文檔中提取表格數據時,相較於單一的大型模型,「多代理」模式——即讓多個專業 AI 代理協作——展現出更高的準確度和效率。

想像一下,你的桌上堆滿了超過 200 頁的報告。裡面充斥著複雜的表格和數據。你每天都要打開這些文檔,將數據手動轉錄到 Excel 中。

某天,公司宣佈:「現在把這件事交給 AI 來做吧。」你滿懷期待地將文檔交給 AI,結果卻令人失望。表格不僅混亂不堪,甚至有很多根本讀不出來。當表格內的單元格合併,或者表頭(Header)有複雜的多層結構時,AI 往往會不知所措。

為什麼這麼聰明的 AI,連一個簡單的表格都讀不好呢?

PDF,數據提取的「絆腳石」

我們常用的 PDF 文檔,事實上並非為了讓電腦輕鬆讀取數據而設計。 [Source 6] PDF 的初衷是為了讓人類能夠列印出來方便閱讀。 [Source 6] 人類用眼睛看表格時可以直觀理解,但對電腦而言,它只包含了文字和線條在頁面上的位置信息,要識別這是一個「表格」的邏輯結構,是非常困難的。

現實中的文檔複雜度遠超預期。即使是同樣的發票,不同廠商可能使用超過 200 種不同的版面佈局, [Source 6] 且單元格合併、表頭堆疊 2 到 3 層的複雜結構也非常普遍。 [Source 15]

這為何重要?

在企業中,這類數據提取是核心業務。當我們建構所謂的「RAG(檢索增強生成)」技術——即讓 AI 學習內部文檔並回答問題的系統時,整理乾淨的表格數據簡直如同「黃金」一般珍貴。 [Source 5] 如果數據無法自動提取,那麼數據分析或 AI 服務的導入根本無法開展。

簡單來說:『專家協作團隊』模式

過去,開發者曾試圖開發一個強大的 AI 模型來一次性解決這個複雜問題。這就像是讓「一名天才數學家」承擔所有工作。但結果不如人意。因為單一 AI 模型在識別表格結構並按照指定格式(如 JSON)輸出數據的「模式(結構)遵守」能力較弱。 [Source 1]

於是,多代理(Multi-agent) 模式應運而生。這就像是「團隊式的專家協作」。

打個比方: 我們不雇用一個全能的天才,而是組成一個由 6 位專家組成的團隊。

  • 模式代理(Schema Agent): 首先定義數據的整體結構與框架。 [Source 14]
  • 提取代理(Extraction Agent): 將文檔中的表格數據實際切割並提取出來。 [Source 14]
  • 語義分析代理(Semantic Agent): 理解數值與文字的脈絡(含義)。 [Source 14]
  • 驗證代理(Validation Agent): 仔細檢查輸出結果是否符合規則並進行修正。 [Source 14]

他們相互分享意見,並反覆修正結果。 [Source 14] 由於每個人都專注於自己的專業領域進行協作,產出的結果比起試圖單打獨鬥的模型,準確度和穩定性都要高得多。 [Source 11, Source 14]

進展如何?

技術正在迅速演進。不僅僅是讀取文字,能夠在視覺上理解表格結構與單元格位置,並進行精確提取的模型正不斷湧現。 [Source 15] 然而,對於掃描品質不佳或版面異常的文檔,代理們精細的分工與協作仍然是不可或缺的。 [Source 6, Source 8]

未來展望

未來,比起單純增加 AI 模型的體積,組合專業的代理來應對各種情況的「可組合(Composable)」架構將成為主流。 [Source 11] 不久的將來,你只需要說一聲:「把這份 PDF 裡面的表格數據全部抽出來整理成檔案」,背景中無數個代理就會井然有序地運作,瞬間為你完成數據整理。 [Source 7]

MindTickleBytes 的 AI 記者觀點

單純擴大模型體積的「拼體量」時代已經過去了。現在 AI 的未來不再取決於使用多麼聰明的模型,而在於如何有效率地分工與協作的「管理能力」。


參考資料

  1. TabAgent: A Multi-Agent Table Extraction Framework for Unstructured Documents
  2. [Build an Enterprise-Scale Multimodal PDF Data Extraction Pipeline with an NVIDIA AI Blueprint NVIDIA Technical Blog](https://developer.nvidia.com/blog/build-an-enterprise-scale-multimodal-document-retrieval-pipeline-with-nvidia-nim-agent-blueprint/)
  3. Developer’s guide to multi-agent patterns in ADK - Google Developers Blog
  4. PDF Table Extraction Showdown: Docling vs. LlamaParse vs. Unstructured
  5. Parsing PDF Documents at Scale - Agentset
  6. [Building an Agentforce Document Analyser with Table Extractor by Justus van den Berg Medium](https://medium.com/@justusvandenberg/building-an-agentforce-document-analyser-with-table-extractor-1c5134f056ce)
  7. Agentic Table Extraction: 6-Agent Pipeline for Messy PDFs
  8. Agentic Table Parsing: Multi-Model Document AI Architecture
  9. Multi-Agent_pdfextractor - GitHub
  10. PdfTable: A Unified Toolkit for Deep Learning-Based Table
  11. TabAgent: A Multi-Agent Table Extraction Framework for Unstructured Documents (Bit.edu.cn)
  12. Breakthrough Table Extraction with Document Pre-trained Transformer
  13. NVIDIA NeMo Retriever Delivers Accurate Multimodal PDF Data Extraction
測試你的理解
Q1. PDF 文檔中表格數據提取困難的根本原因是什麼?
  • PDF 從設計之初就是為了電腦數據提取而開發
  • PDF 是為了方便人類閱讀和打印而設計
  • PDF 文檔的所有格式都是統一的
PDF 最初是為了列印目的而非數據提取而設計,因此當機器解析數據時會面臨結構上的困擾。
Q2. 為什麼相較於單一 AI 模型,『多代理』模式更受青睞?
  • 單一模型能節省所有成本
  • 單一模型更聰明
  • 可以根據專業領域分配任務,從而提高複雜文檔處理的準確度
多代理模式通過分工,例如專門負責模式分析、提取和驗證,從而提高了整體準確度和結構遵守能力。
Q3. 在表格數據提取時,文檔中常見的複雜結構有哪些?
  • 簡單的文本段落
  • 合併單元格、多層級表頭、嵌套結構
  • 沒有圖片的乾淨文檔
合併單元格、複雜表頭和嵌套結構等,是通用模型讀取數據時非常棘手的要素。