在数据科学领域,Python因其强大的库支持和灵活性而成为首选编程语言。然而,对于初学者来说,安装Python和相关工具可能会遇到一些挑战。本文将为提供在Linux、macOS和Windows系统上安装Python的详细步骤,并介绍一些数据科学中不可或缺的工具。
数据科学家的工具箱中包含了多种工具,但有些工具因其广泛的应用而显得尤为重要。以下是每位数据科学家,无论是新手还是老手,都需要掌握的一些必备工具:
Python:Python是数据科学中最广泛使用的编程语言。几乎所有的机器学习新发展都是首先在Python中实现的。Python之所以得到广泛采用,部分原因是它拥有一些非常有用的库。
Pandas:在数据操作和分析方面,Pandas是无与伦比的。Pandas是一个Python库,在进行任何分析或构建机器学习模型之前,它对于数据操作非常有帮助。
NumPy:NumPy和Pandas一样,是一个非常流行的Python库。NumPy引入了支持大型多维数组和矩阵的函数。它还带来了与这些数组和矩阵一起工作的高级数学函数。
Matplotlib:Matplotlib是Python中最流行的数据可视化库。它允许生成和构建各种类型的图表。
Scikit-Learn:就像Pandas用于数据操作,matplotlib用于可视化一样,scikit-learn是构建模型的Python领导者。
Jupyter Notebook:Jupyter Notebook是一个非常有用的IDE,用于执行数据科学实验。它甚至可以让记录方法,并从代码实验中创建演示文稿和幻灯片。可以在这里了解更多信息。
最好的部分是,所有这些工具都默认包含在Miniconda/Anaconda中!
Anaconda是学习数据科学时非常重要的软件。它允许安装几乎所有在Python数据科学之旅中需要的库/工具。它有一个非常简单的界面,让可以用几行代码完成大部分数据科学任务。
Miniconda是Anaconda的缩小版。它是一个轻量级版本,如果计算机上没有足够的磁盘空间,那么它是一个很好的选择。
让看看如何在自己的机器上设置Anaconda和Miniconda!
Linux是数据科学社区中广受欢迎的平台。它在执行数据科学任务方面提供了极大的灵活性。但这里有一个轻微的警告——在Linux上安装软件可能相当棘手!特别是如果是Linux初学者。
# 第1步:获取Miniconda
# 可以从这个链接下载Miniconda:
# https://docs.conda.io/en/latest/miniconda.html
# 可以选择Linux版本的安装程序,建议的Python版本应该是任何大于Python 3.5的版本。
# 第2步:安装Miniconda
# 现在已经下载了Miniconda文件,下一步是将其安装到系统中。为此,首先转到文件下载的目录:
cd directory_name
# 然后,为了启动安装脚本,使用bash命令和Miniconda文件名:
bash miniconda_file_name
# 如果被要求确认,只需按Enter继续。
# 一旦看到许可条款,一直按Enter直到它要求接受条款。然后输入“yes”接受条款。然后它会要求选择安装位置:
# 可以提供一个单独的位置,或者只需按Enter选择默认位置。通常选择默认选项,除非主驱动器上空间不足,然后会给出备用安装位置。
# 在此之后,过程相当直接,只需要对所有内容说“yes”并按Enter。请注意,安装可能需要一些时间,所以请随意去喝杯咖啡,而机器努力安装一切!
# 第3步:创建一个新环境
# 环境基本上是“工作区”。可以按照想要的方式设置它。这很酷,不是吗?
# 可以选择环境中的哪个版本的哪个Python库应该在环境里,这将基本上帮助更好地控制数据科学工作流程。
# Miniconda中环境的好处是它
# 允许创建多个这样的环境。
# 可以管理多个独立的环境,每个环境用于不同的任务!
# 让用一个例子来解释这一点。假设正在使用一个最先进的框架(比如用于自然语言处理的PyTorch-Transformers),需要所有最新版本的依赖库。这就是环境派上用场的地方。
# 可以拥有那个新设置
# 与一个更简单的设置共存
# 其中有一个旧的遗留项目,被迫使用某些版本的库,这些库是项目所需的。
# 可以使用以下命令创建一个环境:
conda create -n av python=3 anaconda
# ‘av’是环境的名称(可以给它任何名称)。而python=3是想要使用的Python版本。
# 要检查环境是否已成功创建,请输入以下命令:
conda env list
# 这将给一个列表,列出系统中当前安装的环境。
# 第4步:激活新环境
# 现在,要开始使用创建的新环境,请输入以下命令:
source activate av
# 为确保在激活的环境中一切正常,可以使用以下命令查看此环境中安装的库列表:
conda list
# 上述命令应该给一个这样的输出:
# 第5步:启动Jupyter Notebook
# 启动Jupyter笔记本的时间:
jupyter notebook
# 这将在浏览器中启动Jupyter Notebook:
# 接下来,只需点击“New”并选择“Python 3”即可开始使用Python 3笔记本进行工作:
- 使用Python的《数据科学入门》
- 《应用机器学习》