数据探索与分析指南

数据科学领域,一个常见的建议是:如果数据集是混乱的,那么构建模型也无法帮助解决问题。结果将是“垃圾进,垃圾出”。为了构建一个强大的机器学习算法,需要在定义预测任务并解决它之前,探索和理解数据集。数据分析是一门微妙的学科,有足够多的方式来切分和处理数据,足以让初学者头晕目眩。数据分析师常听到的问题是:“应该如何开始分析?”以下是一些提示,可以帮助以一种系统的方法开始思考,以在数据中找到答案。

在进一步讨论之前,数据科学家花费大部分时间探索、清理和准备他们的数据以进行建模。这有助于他们构建准确的模型并检查拟合模型所需的假设。创建有意义的数据可视化,从数据中预测未来趋势。如果擅长理解数据准备,那么几乎80%的工作就完成了。

目录

  • 提出正确的问题
  • 分析数据的不同子集
  • 探索趋势
  • 发现盲点
  • 调查原因

提出正确的问题

无论是调查结果、销售数据还是电子邮件活动,收集数据都是出于特定目的。将这个目的应用到向数据本身提出的问题上。从一些具体的问题开始可以让研究保持专注,并允许透过现象看本质。例如,“过去三年收入情况如何”这样的问题是模糊的,虽然允许探索但也可能导致混淆。

相比之下,“过去三年哪个渠道带来的收入最多”这样的问题有一个更清晰的答案。后续的问题可能是:“哪个部门每年带来的收入最多”或者“今年的跑步装备销售是增加还是减少?”在开始数据分析时,心中有一个具体的问题是很重要的,以便提供一些结构并避免陷入假阳性。

分析数据的不同子集

如果从不同的子集分析数据,更容易发现关系。例如,按渠道或部门分割收入数据。尝试与在前一步开发的问题最有意义的子集和变量。这种设计专注于让保持思路清晰,并从一个问题顺利过渡到另一个问题,而不会因为格式或方程而绊倒。

使用Excel中的透视表也很有帮助。在户外装备零售商示例中,可以通过在下拉菜单中选择,从季度视图切换到按季度的收入。下面的图表是2010年至2013年每个季度收入的汇总。

探索趋势

尝试使用时间变量。根据要找的内容,查看季度、月份或周。有时缺失的内容和存在的内容一样重要。如果数据分析中存在空白,请注意。在分析过程中做笔记也很有帮助,提醒以后想要研究或与同事讨论的内容。

看看这个按部门分析的季度收入。它不是很有帮助,因为很难发现趋势。这个年度折线图更容易看出攀岩是增长最快的部门,跑步销售在过去三年一直在下降。

是否经常遇到特定的问题?在收集尽可能多的数据以获得答案和用太多问题让用户感到沮丧之间有一条微妙的界限。在决定想收集多少数据时,权衡这个考虑。然后可以找到一种方法从用户那里收集这些信息,或者至少将其写入以后讨论的数据收集愿望清单。

实际上,对于被要求完成的任务来说,数据已经被收集了。被要求让数据验证一个已经决定的结果。大多数组织不以科学的方式思考。他们不会创建一个假设,然后决定他们需要收集哪些数据来验证它。他们选择一个结果,然后让数据适应。

通常,数据来自完全不同的东西——通常是业务流程的副产品。然后有人灵机一动:“可以用这个来解决”

分析下面的图表,图表展示了数据集的盲点信息。隐藏的数据将是获得解决方案的一个缺点。总的来说,发现异常值将是解决方案之一。

基于R参数的异常值校正。最左边的图表显示了原始数据和检测到的异常值。中间的图表使用零的噪声值来放置或校正线性模型中异常值的位置。最右边的图表将异常值放置在基于R的正值(R = 0.5)的线性模型附近。

调查原因:在日常、每周或季度分析之后,带上图表、笔记和结论,开始与团队的其他成员一起尽可能多地拼凑起来。数据可以告诉发生了什么,但不能告诉为什么。为什么需要拼凑背后的故事。因为许多因素影响销售数据,与团队一起讨论数据洞察可以带来更多的理解。营销经理可能知道一些业务分析师不知道的第三季度攀岩装备销售情况。

沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485