简要概述
多源头、多格式历史数据统一治理与迁移。
项目背景
该仲裁委在信息化建设过程中,面临新旧系统切换的难题。旧系统数据分散在多个异构数据库(SQL Server/Oracle)及Excel表格中,存在大量重复录入、字段缺失、当事人名称不一致(如全称与简称混用)等“脏数据”问题,导致新系统上线后数据无法准确查询,统计报表失真。
多源异构
涉及3套历史系统+手工台账
数据质量低
关键字段缺失率达25%
迁移难度大
需保证数据关联关系不丢失
解决方案
实施路径
1数据探查:全面扫描历史数据,输出数据质量诊断报告。
2清洗规则制定:定义去重规则、补全策略与映射逻辑。
3自动化清洗:利用ETL工具进行批量清洗,修复关联关系。
4人工修正:对无法自动处理的疑难数据进行人工核实修正。