数据清洗与整理:实战经验分享

在任何与数据打交道的工作中,都不可避免地会遇到处理不良数据、不一致数据、不清晰数据的问题。据福布斯的一份报告指出,数据专业人员有高达60%的时间都花在了清洗和整理非结构化数据上。虽然投入了大量的时间,但认为这是得出结果的基础。以下是在近三年处理非结构化数据过程中遇到的七个实例,希望阅读本文的至少能与其中几个产生共鸣。

1. 缺乏唯一标识符

在合并两个或多个表格时,通常存在一个共同的列、变量或参数等,可以用来连接表格。曾面临缺乏唯一标识符的问题,也就是说,缺乏主键和外键。这在跨表格报告参数时造成了麻烦。为了解决这个问题,通过连接某些列的值来创建自己的键,从而在该键上构建了包含感兴趣的列的表格。听起来混乱吗?是的;但确实帮助得到了结果。

2. 不同命名规范

在处理非结构化的地理数据时,遇到了同一个地理管辖区的不同拼写。例如,印度的一个邦Chhattisgarh被拼写为Chhattisgarh、Chhatisgarh和Chhattisgarh。这同样意味着麻烦。为了应对这个问题,创建了一个临时的映射层,为字符串值分配代码,并通过代码从主表中获取正确的拼写,从而继续进行。尽管认为,建立系统限制用户拼写地理名称,而是提供预填充的下拉列表,将彻底消除这个问题。

3. 来自不同文件格式的数据整合

在处理数据的一半时间里,遇到了这个问题。不得不处理被分割成不同表格的数据,所有表格都有不同的格式。例如,一个是SQL文件,另一个来自xlsx文件。这里没有太多可以做的,但要确保不遗漏整体的任何部分,即整合被分割的数据。不能控制一切,有时需要围绕问题工作。

4. 语言障碍

这是一个有趣的实例,印度次大陆的语言和方言多样性直接影响了数据的一致性。例如,Kerala邦的一个城市Thiruvananthapuram也被拼写为Tiruvanantapuram,这让日子比平时更加焦虑。在处理城市级别的地理管辖数据时,无论是城市地区还是农村地区的乡镇级别,都提出了一个巨大的挑战,尤其是在调和数据时。用多种方式解决了这个问题,模糊逻辑拼写检查器是寻求的基础,以维护一个评分系统来调和数据到提议的正确拼写,解决了近60%的问题。剩下的40%是手动处理的。

沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485