在当今快节奏的商业环境中,数据科学家扮演着至关重要的角色。他们不仅要掌握数据分析的技能,更要能够灵活应对各种情况,从而解决各种商业问题。面对紧迫的截止日期和有限的时间,深入理解问题的本质变得尤为重要。只有深入挖掘问题,才能清晰地确定解决问题的方法。
一旦对问题陈述有了深刻的理解并制定了策略,接下来才是查看数据的时候。不要毫无准备地一头扎进数据的海洋。如果直接查看数据,可能会试图在其中找到尽可能多的模式,这个过程将永无止境,将不知道何时停止,最终陷入困境。
不要担心,假设生成(Hypothesis Generation)可以帮助。假设生成是针对需要通过机器学习解决的商业问题,对影响问题的各种因素进行有根据的“猜测”。简而言之,是在做出明智的假设,认为某些因素将如何影响目标变量,随后使用各种统计和图形工具来证明或反驳这些假设。这个过程将节省大量时间。让用一个例子来说明。
假设要解决的问题陈述是:“作为一名数据科学家,被一家在线教育平台雇佣,以确定未来几个月的课程销售情况,以便了解现金流将如何。这将帮助在支付讲师费用、运营和扩张方面合理分配资源。”
理想情况下,在查看数据之前,先花一个小时深入理解问题陈述。思考所有可能影响课程销售的因素,然后再查看数据——这将帮助在特征工程过程中。
以下是数据集的概况——(数据集的随机片段)
# 假设数据集有9个特征(去掉ID)和目标变量——销售量。
首先,进行单变量分析以了解每个变量。希望这个过程相当直接,不会太耗时?但是,如果尝试处理所有可能的组合(仅双变量就有36种组合),并试图找到它们之间的关系,那么随后的双变量和多变量分析可能会花费大量时间。特别是当处理的是黑客马拉松数据集时,这个过程应该理想地快速完成!
以下是进行双变量分析的方式——
# 在进行单变量分析时,整理了一组问题,然后将使用简单的视觉工具来证明或反驳这些问题。
这些就是或多或少涵盖了双变量分析的问题。使用Python的Matplotlib和Seaborn制作的可视化图表既容易构建也容易解释。
问题1:短期促销是否导致销售增加?
# 是的,可以看到在课程进行短期促销和不进行短期促销时的平均销售额之间存在差异。也可以使用t检验来统计支持分析,而不仅仅是视觉上进行。
问题2:公共假期是否有助于增加销售?
# 可以看到,在非公共假期的平均销售额比公共假期要多。所以,不!公共假期并不有助于增加销售。
问题3:长期推广的课程是否销售额更高?
# 再次,长期推广的平均销售额比不进行长期推广时要低。所以,可以得出结论,长期推广并不能帮助增加销售额。因此,不!
问题4:用户流量是否在公共假期更多?
# 不!实际上,公共假期的用户流量比平时要少。人们在假期更不愿意购买课程。
问题5:更高的用户流量是否有助于更高的销售额?
# 通过查看散点图和明显的相关值,可以看到更高的用户流量导致更高的销售额。所以,是的!更高的用户流量显著影响目标变量。
问题6:竞争指标更高的课程是否销售额更低?
# 通过查看相关值(-0.015),可以说竞争指标几乎对销售额没有任何影响。相反,它略微降低了销售额。
问题7:课程类型是否影响课程销售?
# 条形图清楚地显示,学位课程的销售额远高于课程和项目。
问题8:课程领域是否影响销售?
# 是的!商业课程的平均销售额远高于其他课程。所以,课程领域影响销售。但是,看到穿过商业领域的黑线比其他的要大得多吗?这意味着商业课程的销售变化要大得多。为了进一步确认课程领域是否影响销售,可以进行方差分析或t检验。
# 为了回答这个问题,绘制了两个折线图,第一个图表的y轴是销售额,x轴是天数,第二个图表的x轴是周数。通过第一个图表观察到双周模式,通过第二个图表观察到年度季节性模式。