在数据科学项目中,解决问题并不仅仅意味着构建机器学习模型。实际上,关键在于假设生成——这一步骤要求将问题解决技能与商业直觉相结合。这是确保数据科学项目成功的关键步骤。
假设生成是对影响业务问题的多种因素的有根据的“猜测”,这些因素需要使用机器学习来解决。在构建假设时,数据科学家不应基于任何证据知道生成的假设的结果。
“一个假设可以简单地定义为一个猜测。一个科学假设是一个明智的猜测。” —— 艾萨克·阿西莫夫
假设生成是任何数据科学项目中的关键步骤。如果跳过或草率处理这一步骤,项目失败的可能性将成倍增加。
这是一个非常常见的错误,数据科学初学者会犯这样的错误。假设生成是一个以有根据的猜测开始的过程,而假设检验是一个过程,用来得出结论,即有根据的猜测是真还是假,或者变量之间的关系是否具有统计显著性。
后者可以用于进一步的研究,使用统计证据。根据用于测试假设的测试的显著性水平和测试分数,接受或拒绝假设。
以下是假设生成在数据科学中非常重要的5个关键原因:
1. 假设生成有助于深入理解业务问题,推断影响目标变量的各种因素。
2. 将更好地了解哪些主要因素负责解决问题。
3. 需要从各种来源收集数据,这些数据是将业务问题转化为基于数据科学的问题的关键。
4. 如果对领域不熟悉,提高领域知识,因为花时间理解问题。
5. 有助于以结构化的方式解决问题。
百万美金的问题——何时应该进行假设生成?
假设生成应该在查看数据集或收集数据之前进行。
将注意到,如果已经充分地进行了假设生成,将在假设中包含了数据集中的所有变量。
也可能包括了数据集中不存在的变量。
让看看“纽约市出租车行程持续时间预测”的问题陈述,并生成一些假设,这些假设将影响出租车行程持续时间,以理解假设生成。
问题陈述:预测行程持续时间,以便公司可以分配空闲的出租车进行下一次行程。这将有助于减少客户的等待时间,并赢得客户的信任。
1. 基于距离/速度的特征
让尝试提出一个与行程持续时间有关的公式,并帮助为问题生成各种假设:
TIME = DISTANCE / SPEED
距离和速度在预测行程持续时间中起着重要作用。
可以注意到,行程持续时间与行驶距离成正比,与出租车的速度成反比。利用这一点,可以根据距离和速度提出假设。
距离:出租车行驶的距离越长,行程持续时间就越长。
内部下车点:下车点在拥堵或内部车道可能会导致行程持续时间增加。
速度:速度越高,行程持续时间越低。
2. 基于汽车的特征
汽车有各种类型、大小、品牌,这些汽车特征对于通勤不仅基于乘客的安全,而且对于行程持续时间至关重要。让现在根据汽车的特征生成一些假设。
汽车状况:状况良好的汽车不太可能出现故障问题,可能有较低的行程持续时间。
汽车大小:小型车(掀背车)可能有较低的行程持续时间,而大型车(XUV)可能有更高的行程持续时间,这基于汽车的大小和城市的拥堵情况。
3. 行程类型
根据行程供应商,行程类型可能不同——可能是出城行程、单程或拼车。让现在根据使用的行程类型定义一个假设。
拼车:拼车行程可能会导致行程持续时间更长,因为汽车在到达分配的目的地之前会到达多个地方。
4. 基于司机详情的特征
在通勤时间方面,司机是一个重要的人物。关于司机的各种因素可以帮助理解行程持续时间背后的原因,这里有一些假设。
司机年龄:年长的司机可能更小心,可能会导致行程持续时间更长。
性别:女性司机可能会开车更慢,可能会导致行程持续时间更长。
司机经验:驾驶经验很少的司机可能会导致行程持续时间更长。
医疗状况:有医疗状况的司机可能会导致行程持续时间更长。
5. 乘客详情
乘客可以有意或无意地影响行程持续时间。通常会遇到乘客要求司机加快速度,因为他们快要迟到了,还有其他因素可以进行假设,可以看看。
乘客年龄:老年人作为乘客可能会导致行程持续时间更长,因为司机在涉及老年人的行程中倾向于开得更慢。
医疗状况或怀孕:有医疗状况的乘客会导致行程持续时间更长。
紧急情况:有紧急情况的乘客可能会导致行程持续时间更短。
乘客数量:乘客数量多会导致行程持续时间更短,因为座位拥挤。
6. 基于日期-时间的特征
一周中的哪一天和一天中的时间很重要,因为纽约是一个繁忙的城市,可能在办公时间或工作日非常拥堵。让现在基于日期和时间生成一些假设。
接客日:周末可能会导致更多的出城行程,可能会有更长的行程持续时间。
工作日由于交通繁忙,行程持续时间更长。
如果接客日是假日,那么行程持续时间可能会更短。
如果接客日是节日周,那么行程持续时间可能会更低,因为交通较少。
时间:清晨的行程由于交通较少,行程持续时间更短。
傍晚的行程由于高峰时段,行程持续时间更长。
7. 基于道路的特征
道路有不同类型,道路状况或道路上的障碍是不可忽视的因素。让根据这些因素形成一些假设。
道路状况:如果道路状况不好,行程持续时间会更长。
道路类型:在混凝土道路上的行程往往有更短的行程持续时间。
道路上的罢工:在行程方向上的道路上进行的罢工会导致行程持续时间增加。
8. 基于天气的特征
天气随时都可能变化,如果天气变坏,可能会影响通勤。因此,这是假设中需要考虑的一个重要特征。
行程开始时的天气:雨天会导致行程持续时间更长。