简要概述
OCR+NLP技术驱动,从非结构化文档中挖掘资产价值。
项目背景
该仲裁委员会历史积压案件约3万件,主要为纸质卷宗扫描件与部分电子文档。由于历史原因,卷宗目录结构混乱、扫描件命名不规范、案件关键要素(如当事人、标的额、审结日期)缺失严重,无法满足档案局数字化归档要求,也无法支撑后续的案件查询与统计分析。
30,000+
历史积压案件数量
非结构化
原始数据主要为PDF/JPG
合规要求
需符合省档案局归档标准
解决方案
实施路径
1文档预处理:图像去噪、纠偏与增强,提升OCR识别效果。
2OCR文字识别:全量识别文档内容,保留版面格式信息。
3NLP实体抽取:基于命名实体识别(NER)提取人名、地名、金额、日期。
4逻辑校验:校验本金利息计算公式、身份证号合法性。