AI 与智能化
财报 PDF 如何自动提取表格?
这类需求的难点不在"识别文字",而在"还原结构"。滚水科技在做 OCR 和文档处理类 AI 项目时,会专门处理跨页表、合并单元格、脚注、币种单位、年份列、附注编号这些"看起来不起眼但抽错就一片错"的细节,最终输出能直接接入业务的结构化数据。
实际落地一般会按这几步推进:
- 版面 + 表格区域识别:先把页面切分成正文、表格、图、脚注等区域,再单独把表格定位出来。复杂排版下,这一步直接决定后面能不能抽对。
- 结构还原:处理合并单元格、跨页续表、表头层级、空白列、注释挂角等情况。我们一般会让模型给出多版候选结构,再由后处理规则挑出最合理的一版。
- 字段标准化:把"营业收入"和"营业总收入"、"亿元"和"千元"、"2023 年"和"本期"这类同义不同写法的字段统一口径,避免后续分析时口径混乱。
- 业务校验:把合计、占比、同比环比这类公式拿来做反向校验,发现疑似抽错的行立即标黄给人工复审。
- 输出形态:可以直接出 Excel、CSV、入数据库,也可以经接口推送到客户已有的 BI 或分析系统里。
工程上,我们会建议客户准备 20–50 份典型样本(覆盖不同年份、不同行业、不同排版),让我们先跑一轮基线测试,把准确率、误抽率、漏抽率量化出来。这样在签合同前,双方对"目前能做到什么程度、需要多少投入达到目标"就已经有共识,避免做完了才发现效果不达标。
这种"先做小样本基线、再决定投入规模"的方式,是滚水科技在多个 AI 与 OCR 项目里都验证过的做法,能把首期风险压到很低。