在数据分析和数据科学项目中,经常需要处理各种数据。就像未经雕琢的宝石一样,原始数据往往隐藏着巨大的潜力,只有经过恰当的清洗和处理,它们的价值才能被充分发掘。在业界,期望得到一个完全干净的数据集就像一生中遇到哈雷彗星一样罕见。这时,MicrosoftExcel的强大功能就显得尤为重要。
许多人可能会疑惑,为什么在有Python或R等高级语言的情况下,还要依赖Excel进行数据清洗。让分享个人经验来回答这个问题。最初学习了包括Python在内的高级语言,虽然它们对于处理复杂数据集非常有用,但很快意识到,解决日常问题并不需要编写大量的Python代码。许多任务可以在Excel中通过点击按钮来完成。为什么不利用Excel的多功能性呢?
本文将介绍五个在Excel中进行数据清洗的技巧,希望这些技巧能对分析工作有所帮助。这是“Excel for Analysts”系列文章的第四篇,强烈推荐阅读之前的文章,以提高分析效率:
本文将涵盖以下五个Excel数据清洗技术:
数据集中最常见的问题之一就是重复值的存在。这可能是由于数据收集错误或交易重复造成的。以一个例子来理解这一点。假设在Domino's订购了披萨,但由于技术问题,订单被取消了。再次订购了同样的披萨。很可能在系统中输入了重复的交易。
在Excel中处理重复值是一项非常简单而优雅的任务。首先,需要检查表中是否有重复值。
条件格式化 -> 高亮单元格规则 -> 重复值
在这里,可以选择任何所需的格式,然后按OK。注意到这里有两个重复值,这意味着这两个帖子在平台上被重新发布。很有可能这些帖子在一段时间后由于高人气或正在进行的活动而被重新发布。
一旦检测到这些重复值,现在就是时候将它们移除了。在Excel中,这同样非常简单。
数据 -> 删除重复项
Excel会询问希望在哪个特定列执行此任务。选择列并按OK。这就是Excel让任务变得多么简单!让继续下一个重要的数据清洗技术。
空单元格在数据集中是一个常见场景,但它们可能会在统计建模时造成混乱。因此,最好在数据分析项目的初期阶段处理它们。
首先,找到空行(如果有的话)。
查找和选择 -> 定位特殊 -> 空值
在这种情况下,选择“空值”选项。
接下来,填充空单元格。对于用例,将简单地输入值“N/A”。只需输入文本并按CTRL + ENTER即可一次性填充所有单元格。否则,也可以通过简单地按ENTER逐个输入每个值(当然,这不是理想的做法):
当从外部源导入数据时,数据通常不会处于最美观的形式,因为它可能包含一些不需要的字符。这通常是因为文本是从具有在操作系统中不可打印字符的应用程序中导入的:
使用CLEAN()函数来删除换行符和其他不可打印字符。将要清理的文本传递给这个函数。为了更好地理解这个函数,可以参考视频或按照以下步骤操作:
=CLEAN(C4)
太棒了!离拥有一个干净的数据集又近了一步。但是等等,注意到有很多不需要的前后空格。别担心——Excel也为此提供了一个非常简单的解决方案。
正如在上面的Excel技巧中看到的,导出的数据可能包含一些不需要的字符,但它也可能包含多个空格(如下所示)。这些多个空格可能肉眼不可见,但它们可能会在分析中造成混乱,所以时候将它们移除了:
Excel的TRIM()函数用于删除文本中所有额外的空格,除了单词之间的单个空格。为了更好地理解,可以观看视频或按照以下步骤操作:
TRIM(C4)
专业提示:与其分别应用CLEAN和TRIM函数,可以像这样嵌套函数:
TRIM(CLEAN(C4))
大家做得很好!来检查另一个强大而简单的数据清洗函数。
如果仔细观察数据集中的社交媒体帖子,会发现它们是不一致的。有些是全部小写,有些是全部大写。为了保持一致性,让将所有内容转换为小写。
LOWER()