在众多数据科学领域中,与业务紧密合作以识别问题至关重要。虽然有许多文章提供建立稳固个人资料的建议,但很少有人告诉应该选择哪种个人资料,因为这关系到整个职业生涯。本文将分享四个重要原因,说明为什么在最终选择个人资料之前需要经历不同的数据科学家角色。
原因一:培养自认知
首先,思考一下目前在数据科学领域的身份。考虑关于数据科学的目标,以及希望数据科学家个人资料在未来六个月内如何变化。是想成为某一领域的专家,还是一个通才,或者是两者的结合?无论是在学术界还是工业界,每种选择都有其职业优势和劣势。
原因二:强调可视化中标准化的重要性
想揭示将用户标准化为一系列特征的可视化。应该思考将如何做到这一点,然后问问自己是否认为标准化的可视化有任何意义。在特定情况下,标准化X轴和Y轴是关键步骤。X轴上的主要类别包括“数据可视化”、“软件工程师”、“数学”、“统计学”、“机器学习(ML)”、“沟通技巧”和“领域专长”,这些类别既方便又有争议。Y轴上,展示了个人资料在完成学士学位时以及在优秀的数据科学团队中工作后如何变化。这里的比较是前后的。决定不标记尺度,因为不想让专业观念影响。
原因三:思考数据科学团队的第一步
想让加入一个数据科学社区。一种方法是结合互补的个人资料。这有助于理解角色,遇到志同道合的人,并提前学习。
原因四:在进行EDA之前展示思维过程
这是直觉和数学/统计知识的混合。首先创建了一个简单的标准化可视化,然后可以比较不同的个人资料。缺乏标准化意味着会尝试关注相对条件。知道会看到什么吗?不。但有一种预感,以下一些事情会发生:发现了一些新东西;见证了个人资料的自然聚类。一些人彼此相似。(思考:“相似”意味着什么?两个个人资料之间的“距离”是多少?如何测量相似性?)获得了个人资料分布的感觉;开始对加入数据科学社区有了直觉;开始思考可能用这个数据集或其泛化版本进行的机器学习或分析问题。
作为数据科学家,让想象力在这里发挥作用。将如何使用这些个人资料或类似这些条形图的方法来思考或构建功能团队?
元思考和分析
关于这个问题,作为数据科学家的身份,相对于他人的优势,以及对团队的贡献,已经受到与合、导师和朋友进行的许多对话的影响和塑造。