案例展示 / 案例展示

山西省某地市仲裁委员会数据清洗

多源头、多格式历史数据统一治理与迁移。

简要概述

多源头、多格式历史数据统一治理与迁移。

项目背景

该仲裁委在信息化建设过程中,面临新旧系统切换的难题。旧系统数据分散在多个异构数据库(SQL Server/Oracle)及Excel表格中,存在大量重复录入、字段缺失、当事人名称不一致(如全称与简称混用)等“脏数据”问题,导致新系统上线后数据无法准确查询,统计报表失真。

多源异构

涉及3套历史系统+手工台账

数据质量低

关键字段缺失率达25%

迁移难度大

需保证数据关联关系不丢失

解决方案

实施路径

1数据探查:全面扫描历史数据,输出数据质量诊断报告。
2清洗规则制定:定义去重规则、补全策略与映射逻辑。
3自动化清洗:利用ETL工具进行批量清洗,修复关联关系。
4人工修正:对无法自动处理的疑难数据进行人工核实修正。

项目成果

清洗数据 1.2万条有效修复了历史遗留的脏数据
数据可用性 清洗后数据完全符合新系统入库标准
迁移成功率 实现新旧系统平滑过渡