数据科学入门指南

要深入掌握一门学科,必须从基础学起,直至能够向十岁孩童解释清楚。回顾在学前班学习数学或其他任何科目的方式,都是从最基础的构建块开始的:数字、计数、算术运算等。因此,要达到一定的理解水平,需要走一段较长的路。

看下面的图片。如果要从A点到B点,通常会怎么做?直接从A跳到B,对吧?当谈论数据科学时,新手往往急于从阅读问题陈述直接跳到建模,而忽略了中间步骤。因此,一个数据科学项目需要更全面的方法:

1. 定义想要解决的问题 2. 头脑风暴并记录影响问题的各类因素/变量 3. 写下假设,即其他变量如何影响目标变量 4. 为项目收集数据(在黑客马拉松中,数据集已经提供) 5. 从现有变量中创建新变量(特征工程) 6. 探索数据,了解变量的分布,同时尝试推翻假设(这里可以使用统计测试、图形度量等) 7. 为建模准备数据(数据转换、缺失数据插补、创建更多变量等) 8. 进入建模部分(确定适合模型,而不是盲目应用所有模型) 9. 变量选择、模型调整和验证,以使模型对未见过的数据更加健壮 10. 部署和跟踪模型在未来数据上的表现

是否在跳到建模部分之前考虑过这些步骤?上面提到的是新手中存在的一个常见误区。消除这些误区非常重要,以便能够专注于对来说正确和关键的事情,以便开始在这一领域开展职业生涯。

如果是刚开始旅程,这篇文章是为准备的。或者,如果已经学了一些概念,那么这篇文章将帮助重新调整并优先考虑重要的事情。这是在Paisabazaar,一家金融科技公司,作为分析助理经理的第五个月,对数据科学工作的看法已经改变。换句话说,已经学会了在开始申请或工作之前应该优先考虑什么。

更多误区揭秘

这是所相信的大多数新手的想法:

1. SQL和数据库对Python来说是次要的。 2. ML算法只是Scikit-learn中的一行代码。 3. 模型构建是这个星球上最迷人的工作。 4. 深度学习是获得数据科学工作的必要条件。 5. 线性回归和逻辑回归不能解决问题。 6. 编写干净的代码并不重要。

让一一讨论它们。

1. SQL和数据库对Python来说是次要的。作为数据科学家/分析师,原材料是什么,用来制作出色的仪表板/模型/摘要?是数据,对吧?数据存储在哪里?显然是数据库。如果不能处理原材料,怎么期望能做饭呢?

2. ML算法只是Scikit-learn中的一行代码。不同类型的模型有不同的用例。建模不仅仅是使用默认模型来获得一些输出。优化模型,使其简洁(以便能够有效处理新数据并给出好结果),调整参数——必须做所有这些事情来设计一个模型。

3. 模型构建是这个星球上最迷人的工作。正如上一点提到的,使用一行代码是不够的。在开始建模之前,需要头脑风暴,思考应该有哪些数据来构建模型——影响输出的变量。因此,从各种数据库/利益相关者那里收集数据、数据操作、数据转换、数据插补占据了构建模型的80%的时间。

4. 深度学习是获得数据科学工作的必要条件。看到许多新手试图深入研究深度学习和机器学习,以获得数据科学工作。这几乎就像是在厨房里为了做一个简单的菜而购买不需要的和额外的食材。这些食材肯定会补充简历,但如果在基础上犹豫不决,那么提前学习有什么意义呢?

沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485