数据科学项目中的假设生成

数据科学项目中,解决问题并不仅仅意味着构建机器学习模型。实际上,关键在于假设生成——这一步骤要求将问题解决技能与商业直觉相结合。这是确保数据科学项目成功的关键步骤。

什么是假设生成?

假设生成是对影响业务问题的多种因素的有根据的“猜测”,这些因素需要使用机器学习来解决。在构建假设时,数据科学家不应基于任何证据知道生成的假设的结果。

“一个假设可以简单地定义为一个猜测。一个科学假设是一个明智的猜测。” —— 艾萨克·阿西莫夫

假设生成是任何数据科学项目中的关键步骤。如果跳过或草率处理这一步骤,项目失败的可能性将成倍增加。

假设生成与假设检验

这是一个非常常见的错误,数据科学初学者会犯这样的错误。假设生成是一个以有根据的猜测开始的过程,而假设检验是一个过程,用来得出结论,即有根据的猜测是真还是假,或者变量之间的关系是否具有统计显著性。

后者可以用于进一步的研究,使用统计证据。根据用于测试假设的测试的显著性水平和测试分数,接受或拒绝假设。

假设生成如何帮助?

以下是假设生成在数据科学中非常重要的5个关键原因:

1. 假设生成有助于深入理解业务问题,推断影响目标变量的各种因素。

2. 将更好地了解哪些主要因素负责解决问题。

3. 需要从各种来源收集数据,这些数据是将业务问题转化为基于数据科学的问题的关键。

4. 如果对领域不熟悉,提高领域知识,因为花时间理解问题。

5. 有助于以结构化的方式解决问题。

何时进行假设生成?

百万美金的问题——何时应该进行假设生成?

假设生成应该在查看数据集或收集数据之前进行。

将注意到,如果已经充分地进行了假设生成,将在假设中包含了数据集中的所有变量。

也可能包括了数据集中不存在的变量。

让看看“纽约市出租车行程持续时间预测”的问题陈述,并生成一些假设,这些假设将影响出租车行程持续时间,以理解假设生成。

问题陈述:预测行程持续时间,以便公司可以分配空闲的出租车进行下一次行程。这将有助于减少客户的等待时间,并赢得客户的信任。

1. 基于距离/速度的特征

让尝试提出一个与行程持续时间有关的公式,并帮助为问题生成各种假设:

TIME = DISTANCE / SPEED

距离和速度在预测行程持续时间中起着重要作用。

可以注意到,行程持续时间与行驶距离成正比,与出租车的速度成反比。利用这一点,可以根据距离和速度提出假设。

距离:出租车行驶的距离越长,行程持续时间就越长。

内部下车点:下车点在拥堵或内部车道可能会导致行程持续时间增加。

速度:速度越高,行程持续时间越低。

2. 基于汽车的特征

汽车有各种类型、大小、品牌,这些汽车特征对于通勤不仅基于乘客的安全,而且对于行程持续时间至关重要。让现在根据汽车的特征生成一些假设。

汽车状况:状况良好的汽车不太可能出现故障问题,可能有较低的行程持续时间。

汽车大小:小型车(掀背车)可能有较低的行程持续时间,而大型车(XUV)可能有更高的行程持续时间,这基于汽车的大小和城市的拥堵情况。

3. 行程类型

根据行程供应商,行程类型可能不同——可能是出城行程、单程或拼车。让现在根据使用的行程类型定义一个假设。

拼车:拼车行程可能会导致行程持续时间更长,因为汽车在到达分配的目的地之前会到达多个地方。

4. 基于司机详情的特征

在通勤时间方面,司机是一个重要的人物。关于司机的各种因素可以帮助理解行程持续时间背后的原因,这里有一些假设。

司机年龄:年长的司机可能更小心,可能会导致行程持续时间更长。

性别:女性司机可能会开车更慢,可能会导致行程持续时间更长。

司机经验:驾驶经验很少的司机可能会导致行程持续时间更长。

医疗状况:有医疗状况的司机可能会导致行程持续时间更长。

5. 乘客详情

乘客可以有意或无意地影响行程持续时间。通常会遇到乘客要求司机加快速度,因为他们快要迟到了,还有其他因素可以进行假设,可以看看。

乘客年龄:老年人作为乘客可能会导致行程持续时间更长,因为司机在涉及老年人的行程中倾向于开得更慢。

医疗状况或怀孕:有医疗状况的乘客会导致行程持续时间更长。

紧急情况:有紧急情况的乘客可能会导致行程持续时间更短。

乘客数量:乘客数量多会导致行程持续时间更短,因为座位拥挤。

6. 基于日期-时间的特征

一周中的哪一天和一天中的时间很重要,因为纽约是一个繁忙的城市,可能在办公时间或工作日非常拥堵。让现在基于日期和时间生成一些假设。

接客日:周末可能会导致更多的出城行程,可能会有更长的行程持续时间。

工作日由于交通繁忙,行程持续时间更长。

如果接客日是假日,那么行程持续时间可能会更短。

如果接客日是节日周,那么行程持续时间可能会更低,因为交通较少。

时间:清晨的行程由于交通较少,行程持续时间更短。

傍晚的行程由于高峰时段,行程持续时间更长。

7. 基于道路的特征

道路有不同类型,道路状况或道路上的障碍是不可忽视的因素。让根据这些因素形成一些假设。

道路状况:如果道路状况不好,行程持续时间会更长。

道路类型:在混凝土道路上的行程往往有更短的行程持续时间。

道路上的罢工:在行程方向上的道路上进行的罢工会导致行程持续时间增加。

8. 基于天气的特征

天气随时都可能变化,如果天气变坏,可能会影响通勤。因此,这是假设中需要考虑的一个重要特征。

行程开始时的天气:雨天会导致行程持续时间更长。

沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485