数据分析行业的薪酬预测模型案例研究

最近,团队在社交媒体上分享了一个项目,受到了广泛的欢迎和传播。收到了来自印度以外的一些请求,希望能为其他地区创建类似的项目。鉴于这一反响,认为分享这个创建网络应用的故事会非常有趣。这个故事讲述了如何在短短3天内创建并实施一个预测模型,这对于数据科学家和企业家来说都可能非常吸引人。如果像一样对这类项目感兴趣,那么这可能是一个金矿!

案例研究的价值

故事的起点

不到一周前,Sunil、Sahil、Manish和坐在德里的炎热中,边喝着“chai”(印度白茶)边聊天。午餐后去茶摊散步几乎成了日常习惯。Manish喝了一口茶,然后带着他标志性的微笑看着Sunil和。他的眼神告诉,他即将提出一个建议(以问题的形式)——这是典型的Manish风格。

但这一次,将在接下来的3天内实施并上线他的想法!

想法的诞生

那么,这个想法是什么呢?Manish说:“在分析学上发表了一些很棒的文章,并且团队中有一些最优秀的专家。为什么不根据手头的数据创建一个案例研究呢?”在走回黑客室(即办公室)的时候,一个新的想法已经成形了:

在过去一年中与超过17,000个数据点和个人资料进行了互动,这些数据点和个人资料来自印度。如何利用这些信息来发现数据分析行业的洞见呢?

在“Gyaan-board”(白板)上的几次头脑风暴后,确定了这个想法:利用已有的数据,将构建一个网络应用,该应用可以根据用户提供的一些输入预测分析专业人士的薪酬。

可用数据

对数据库的查询显示,总共有17,413个数据点和超过30个变量。这些数据与数据科学/大数据/机器学习、商业智能和其他领域的各种专业人士有关。

仔细查看这些变量后,发现只有大约一半的变量足够好,可以用于建模。这是因为去除了所有敏感数据,如联系方式、出生日期以及信息缺失超过30%的变量。

可用的变量可以分为以下几类:

  • 人口统计学,包括当前居住城市
  • 教育相关——本科、研究生
  • 当前技能集——个人知道的的工具和技术

数据挑战与解决方案

对于那些认为数据是干净且结构化的人,让警告!数据集有很多挑战。以下是一些概述性的挑战。

有一个假设,即Tier1大学的毕业生会比其他大学的毕业生获得更好的薪酬。实际上认为这将是一个非常显著的模型变量。然而,要接受或拒绝这个假设,必须将大学分类为Tier1/其他。然而,处理大学名称并不容易。以IIT Bombay为例,它被写成了以下形式:IIT Mumbai、IIT Bombay、Indian Institute of Technology Mumbai、IIT (Mumbai)、IIT(Bombay)、IIT Powai等等。必须将这些变体减少到正确的组合,考虑到特殊字符、名称变体和大量的值。

技能领域也像一个自由文本。它实际上是一个标签云存储在一起。同样,每份简历都有自己的技能集合,如机器学习、神经网络、PCA、回归、Qlikview、Tableau、Excel、R、Python、顾问、数据分析、时间序列、CHAID、因子分析、咨询、增长策略等等。希望将每个数据点映射到唯一的一种技能档案。通过使用文本挖掘的各种方法来解决这个问题,阅读词密度、频率,最后进行聚类。模型最终得到了7种不同类型的档案。

工作经验和薪酬有缺失值和异常值。例如,一个有2-5年工作经验的人的薪酬从0(可能失业/启动创业)到每年50 lakhs(非常幸运的家伙)不等。使用均值插补方法处理缺失值(类似案例),这对来说效果很好。还单独处理了异常值。

洞见

在完成所有的数据探索或整理后,使用了回归树作为建模技术。本可以查看其他技术,但回归树易于实施(稍后会详细介绍),可以在wordpress设置中实施它们,而不需要太多修改。以下是分析中出现的一些洞见:

正如预期的那样,更高的经验有更高的薪酬。但是,如果看工作经验的分布混合,它也显示了这个领域的平均年份大约是5年。

下面的可视化清楚地表明,随着技能的提升,更好的薪酬在等待着,所以是时候提升技能了。可以在这里遵循Python、R、SAS和Qlikview的学习路径。

毕业于Tier1学院吗?这里有一些好消息给。下面的热图显示了分析公司愿意为Tier 1学院的人才支付溢价的意愿。

孟买和加尔各答的薪酬略高于其他前5个城市。但是,如果看分布,它清楚地显示了产业在孟买、德里NCR和班加罗尔的渗透更多。

对于死硬的统计学家来说,上面的一些图表需要置信区间以及这些免责声明。这些图表是为了理解趋势而不是得出结论而创建的。此外,样本量很大,所以区间会比在这里看到的变异小。

决策树准备就绪

一旦准备好了决策树,迅速在较小的数据集上对其进行了验证。发现模型在70%的情况下提供了正确的分类——考虑到在最后1.5天内所做的粗糙切割,这已经不错了。

沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485