数据科学已经成为当今最受尊敬和向往的职业之一。如果来自非编程背景,并且正在转型到数据科学领域,本文将为详细解读编程在数据科学中的作用。
让通过几个真实场景来了解数据科学家在哪些情况下良好的编程技能可以节省大量时间。
假设正在参加一个Kaggle竞赛,有一个非常大的数据集,并且有30天的时间来完成。在这里,编程技能不仅决定了是否能完成并提交模型,而且工作质量也取决于编程技能有多好。
假设像一样跳过了最初的阶段,开始学习使用高级机器学习算法(如SVM)来创建模型。这些算法需要执行多个循环等操作!如果在这个阶段的编程技能不好,那么很有可能不会理解每一步的含义,这肯定会阻碍旅程。
正如之前所说,一个从非编程背景转型到数据科学领域的人应该掌握编程的基本任务。让看看这些任务:
这是数据科学家应该了解的最简单和最基本的编程技能之一。这种简单的语句在分解和分析数据时有着巨大的应用。
if score >= 75:
print("有资格晋升")
else:
print("没有资格晋升")
这些代码行帮助命令语言执行重复的任务,而不需要每次都手动输入代码。
for i in range(1000):
print("Larry 是一个好球员")
这是最被忽视但也是最重要的编程方面。尽管有许多预定义的库可以执行各种函数,但在许多情况下,需要定义自己的函数以高效地执行函数。
def add_and_multiply(x, y):
return (x + 5) * y
数据结构是编程的基础。不同的数据结构帮助以特定的方式存储不同类型的数据。需要了解的主要数据结构包括:
一旦将数据导入到编程语言中,将需要切片并检查数据的某个特定部分。或者将需要通过具有特定变量值的数据进行索引。
# 假设有一个名为df的DataFrame,想要索引第二阶段癌症患者的数据
patients_stage_2 = df[df['cancer_stage'] == 2]
1. 数据提取:一旦确定了目标,需要收集相关数据。无论是从本地系统导入数据,还是从组织的数据库中检索数据,都需要编码。
2. 数据清洗:干净的数据对于模型理解数据规则并创建最佳可能的模型是绝对必要的。识别和填充缺失值、变量转换、创建多个循环和定义函数是一些常见的活动,需要编码来完成。
3. 数据可视化:在创建模型之前,大量的工作投入到理解数据的每个变量中。需要单独可视化它们以检查分布,此外,还需要比较两个变量以检查它们是否有关系。
随着数据科学世界的快速发展,已经开发出了许多编程语言。让看看最突出的一些。一些最突出的语言包括: