数据科学入门指南

大家好,是Sion。写这篇文章是因为知道在开始新的职业生涯或从旧职业转变时,人们会感到多么紧张和困惑。大多数人都经历过这样的阶段,在生活中,似乎没有什么是有意义的,即使付出了100%的努力,似乎也不够。但必须记住的是,无论现在的情况如何,都不是永久的,没有什么是永久的,变化是唯一的常数。有一句著名的温斯顿·丘吉尔的名言,在度过那些阴暗的日子时帮助了很多,它是这样的……

“如果正在经历地狱,那就继续前进”

当想到这一点时,这是有道理的,意思是,为什么要在地狱里停下来呢?无论如何,现在让开始讨论数据科学。数据科学家被《哈佛商业评论》在2012年称为21世纪最性感的工作,并且连续9年保持这个头衔。数据科学家的目的是“通过分析从原始数据中创造价值”。今天,全球各地的顶级公司都在招聘数据科学家,让他们深入研究他们的数据,并得出有价值的见解和结论,这将帮助公司进一步发展,并击败他们的竞争对手。

数据科学之旅的工具和技能

为了施展他们的魔法,数据科学家需要他们的工具,这些工具帮助他们按照自己的意愿弯曲数据,并提供数据所要说的有价值的故事和秘密。掌握这些工具是容易的,如果下定决心,但它需要一致性和毅力。数据科学项目的不同阶段需要不同类型的工具。尽管互联网上有很多这些工具可以学习,在这篇文章中提到的是个人认为容易使用,并帮助开始数据科学世界的工具。

数据存储、探索性数据分析、数据建模、数据可视化

一个典型的成功公司每天可以产生数百万甚至数十亿的数据。所有这些数据都需要存储在安全且易于访问的地方,数据科学家可以随时获取所需的数据。这个地方被称为数据库。数据库需要定期监控,以确保数据的顺利流动和存储。

SQL是一种非常实用的工具,用于按照意愿使用这些数据。SQL代表“结构化查询语言”,是一种主要用于处理关系数据库的编程语言。它用于数据库的创建、删除、获取行和修改行等。这里有一个不错的Analytics Vidhya文章,如果想一窥SQL的话。

EDA是一种分析数据集以总结其主要特征的方法。它真的帮助数据科学家,从长远来看,熟悉他们正在处理的数据。收集初步见解将帮助更好地理解问题,并提出可以用数据科学回答的必要问题。EDA值得一读,所以这里是来自Towards Data Science的另一个有用的文章,将帮助更深入地理解EDA。

21世纪数据科学家的一项基本技能是了解编程语言Python。即使没有编码或计算机科学背景,学习Python也非常容易。它非常直观,可以在几周内甚至自己掌握它!这是一个基本的Hello World!代码在Python中的样子:

print('Hello World!')

就这么简单!使用各种免费在线资源学习Python。到目前为止,认为最好的是一个名为SoloLearn的网站。它是完全免费的,并且设计得非常互动地教。但练习才能完美。可以在HackerRank网站上应用所学的一切并练习编码。HackerRank提供各种难度的问题和各种主题,这将使作为一个程序员感到自信,并熟悉计算机的工作原理。将在下面链接这两个网站。

下一步是创建或制作一个预测方程,或通常称为模型,它将预测“可能发生”或“可能在未来发生的事情”。这通常是使用机器学习完成的,机器学习是数据科学的一个高级主题。任何人都可以在基本水平上进行机器学习,但如果想在未来成为一个健壮和牛逼的数据科学家,建议首先学习机器学习背后的数学。通常需要的主题是线性代数、多元微积分和统计学。

Python提供了非常好的包(一个包是一个第三方脚本捆绑,提供更多的功能。这些包的存在是Python如此广泛使用的原因之一。)来制作基本和高级的可视化,这对于传达数据揭示的故事非常有用。再次想提一下,这篇文章包括了所有数据科学初学者或初学者应该拥有的基本知识,这将帮助他们不感到迷茫,并开始。尽管互联网上有很多更好的可视化工具(如Tableau等),但在基本水平上学习这些可能会让人感到不知所措。

回到Python数据可视化包。两个最受欢迎的包是Matplotlib和Seaborn。可视化包括饼图、条形图、直方图等,它们提供了数据的图形表示,帮助非技术人员和技术人员理解重要的见解。可以在以下链接中了解更多关于它们的内容:

用户指南 — Matplotlib 3.4.1 文档

用户指南和教程 — seaborn 0.11.1 文档 (pydata.org)

创建数据科学作品集

在当今世界,拥有参考资料和来源是非常重要的因素。了解并从那些已经擅长想实现的目标的人那里学习,将带走得更远,而在互联网时代,与新人建立联系就像呼吸一样容易。另一方面,必须创建一个在线形象,展示技能和才能,让人们知道他们将得到什么回报。

“联系可以打开学位无法打开的门”

拥有一个定期的Github个人资料是展示对工作认真态度的最简单方式。另一个很好的联系来源是LinkedIn。它是一个商业和就业导向的社交媒体,帮助公司招聘员工或帮助个人展示他们的专业成就并确保就业。强烈建议每个人都拥有一个活跃的Github和LinkedIn账户,并定期参与社区。将在文章的最后链接社交媒体,以防中的一些人对感兴趣。

但可以说是数据科学最重要的在线论坛是Kaggle。它特别是为数据科学家制作的,并拥有一个非常活跃和吸引人的社区。Kaggle提供了各种领域的广泛数据集,供练习,并提供免费的强大工具和资源,帮助实现数据科学目标。Kaggle还定期举办有现金奖励的比赛,供参加。一旦提高了技能并感到自信,可以参加这些免费的比赛,如果足够好,可以赢得一大笔钱!!

沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485