数据科学与Azure的结合

在数据科学的各个前沿领域，如机器学习、MLops和数据工程，都在以快速和精确的步伐前进。这些领域的未来被微软、亚马逊、Databricks和谷歌等大型企业所定义，它们正在推动这一领域的创新。由于这些快速的变化，获得这些大企业之一的认证，并了解他们的产品供应是有意义的。此外，这些平台提供的端到端解决方案，从可扩展的数据湖到可扩展的集群，无论是测试还是生产，都为数据专业人员提供了便利。从商业角度来看，所有基础设施都在一个屋檐下，无论是云上还是按需的，越来越多的企业由于持续的大流行而倾向于或被迫转向云服务。

DP-100（在Azure上设计和实现数据科学解决方案）如何帮助数据科学家或任何与数据打交道的人？

简而言之，企业从各种来源收集数据，如移动应用、POS系统、内部工具、机器等，所有这些都被存放在不同的部门或不同的数据库中，这对于传统的大型企业尤其如此。对于数据科学家来说，一个主要的障碍是将相关数据汇集到一个单一的屋檐下，以便构建模型并在生产中使用。在Azure的情况下，所有这些数据都转移到一个数据湖中，可以使用SQL池或Spark池进行数据操作，进行数据清洗、模型预处理、模型构建（使用低成本的测试集群）、模型监控、模型公平性、数据漂移和部署（使用高可扩展性、高成本的集群）。数据科学家可以专注于解决问题，让Azure承担重任。

另一个用例场景是使用mlflow（Databricks的开源项目）进行模型跟踪。任何参加过DS黑客马拉松的人都知道，如果没有设置管道，模型跟踪、记录指标和比较模型是一项繁琐的任务。在Azure中，所有这些都可以通过称为实验的东西轻松实现，所有模型都被记录，指标被记录，工件被记录，所有这些都使用一行代码。

关于Azure DP-100

AzureDP-100（在Azure上设计和实现数据科学解决方案）是微软为所有数据爱好者提供的数据科学认证。这是一个自节奏的学习体验，具有自由和灵活性。完成后，可以无忧地在Azure上工作，构建模型、跟踪实验、构建管道、调整超参数等，以Azure的方式进行。

具备Python的基本知识，至少工作3-6个月，这将有助于准备考试。具备机器学习的基本知识。这有助于理解代码，并在考试期间回答ML问题。在Jupyter笔记本或Jupyter实验室工作过，这不是强制性的，因为所有的实验室都在Jupyter笔记本上，很容易使用它们。了解Databricks和mlflow可以提高测试分数，从2021年7月开始，这些概念被包含在DP-100中。考试费用为4500卢比。注册一个免费的Azure账户，将获得13000卢比的信用额度，用这些信用额度可以探索Azure ML。这绰绰有余。但Azure ML只在前30天免费。所以好好利用这个订阅。最重要的是，将考试日期设定为今天起30天后，支付费用，这将是一个好的动力因素。

DP 100考试页面 Azure网页

考试费用约为4500卢比，许多公司在招聘过程中并不期望有认证，这是好的，但许多招聘者并不要求或知道它，所以问题是这值得支付吗？这值得周末吗？答案是肯定的，原因很简单，即使一个人可能是机器学习大师或Python专家，但Azure的内部工作是特定的Azure，许多方法都是Azure特定的，以提高性能。一个人不能只是倾倒Python代码，期望它给出最佳性能。Azure上有许多自动化的过程，例如-automl模块只需一行代码就可以构建模型，超参数调整只需要一行代码。无代码ML是另一个拖放工具，使构建模型变得轻而易举。容器/存储/密钥库/工作区/实验等都是Azure特定的工具和类。创建计算实例，使用管道，mlflow有助于理解MLops概念。如果在Azure上工作，想要探索它的细节，这绝对是一个加分项。总的来说，回报超过了努力。

考试是基于MCQ的，大约有60-80个问题，提供的时间是180分钟。这个时间足以完成和审查所有问题。会问两个实验室问题或案例研究类型的问题，这些是必须回答的问题，不能跳过。这是一个监考测试，所以确保为考试做好准备。微软大约每两年改变一次模式，所以最好查看最新的考试模式。如果将考试准备分为两个步骤，理论和实验室，会更容易。理论非常详细，需要至少1-2周的准备和审查。所有理论问题都可以从微软文档中学习。详细研究这些文档就足够了。这个重要部分构成了最多的问题——使用Azure机器学习构建和操作机器学习解决方案。实验室也很重要。尽管不会问实际的实验室问题，但它有助于理解Azure特定的类和方法。这些构成了大多数问题。不会问机器学习问题，例如，什么是R2分数不会问。可能会问的是如何为实验记录R2分数。所以应该关注Azure上的ML应用。微软也为DP-100提供了一个由讲师带领的付费课程。认为没有必要参加这个课程，因为所有的东西都在MS文档中。实践实验室，大约14个实践，至少练习一次，以熟悉Azure工作区。在参加考试之前复习理论，以免在考试中感到困惑。

设置Azure机器学习工作区运行实验和训练模型优化和管理模型部署和使用模型

git clone https://github.com/microsoftdocs/ml-basics

## 创建工作区
ws = Workspace.get(name='aml-workspace',
subscription_id='1234567-abcde-890-fgh...',
resource_group='aml-resources')

## 注册模型
model = Model.register(workspace=ws,
model_name='classification_model',
model_path='model.pkl', # 本地路径
description='A classification model',
tags={'data-format': 'CSV'},
model_framework=Model.Framework.SCIKITLEARN,
model_framework_version='0.20.3')

## 在管道中运行.py文件
step2 = PythonScriptStep(name = 'train model',
source_directory = 'scripts',
script_name = 'train_model.py',
compute_target = 'aml-cluster')

# 定义并行运行步骤配置
parallel_run_config = ParallelRunConfig(
source_directory='batch_scripts',
entry_script="batch_scoring_script.py",
mini_batch_size="5",
error_threshold=10,
output_action="append_row",
environment=batch_env,
compute_target=aml_cluster,
node_count=4)

# 创建并行运行步骤
parallelrun_step = ParallelRunStep(
name='batch-score',
parallel_run_config=parallel_run_config,
inputs=[batch_data_set.as_named_input('batch_data')],
output=output_dir,
arguments=[],
allow_reuse=True)

为测试和生产创建计算集群创建管道步骤将Databricks集群连接到AzureML工作区超参数调整方法使用数据——数据集和数据存储模型漂移差分隐私检测模型不公平性（MCQ问题）使用shap解释器进行模型解释。

Scriptrunconfig PipelineData ParallelRunConfig PipelineEndpoint RunConfiguration init() run() PublishedPipeline ComputeTarget.attach 数据集/数据存储方法

Azure机器学习工作区： Azure Databricks创建集群： Azure设计器：考试日确保在前一天测试系统。工作笔记本电脑有时会出现问题，所以最好使用个人笔记本电脑。不允许携带书籍/纸张/笔或其他文具。监考员会进行初步的基本检查，并让开始考试。一旦考试提交，分数会立即显示在屏幕上，稍后会通过电子邮件发送。所以不要忘记检查邮件。认证有效期为2年。

祝好运！下一个目标应该是DP-203（Microsoft Azure上的数据工程）。

Docker容器化技术及其在机器学习中的应用

本文介绍了Docker容器化技术，包括其基本概念、术语、安装方法、常用命令以及如何利用Docker部署机器学习模型。

数据科学与Azure的结合

DP-100（在Azure上设计和实现数据科学解决方案）如何帮助数据科学家或任何与数据打交道的人？

关于Azure DP-100

推荐系统详解

Docker容器化技术及其在机器学习中的应用

沪ICP备2024098111号-1

上海秋旦网络科技中心：上海市奉贤区金大公路8218号1幢联系电话：17898875485

数据科学与Azure的结合

DP-100（在Azure上设计和实现数据科学解决方案）如何帮助数据科学家或任何与数据打交道的人？

关于Azure DP-100

推荐系统详解

Docker容器化技术及其在机器学习中的应用

沪ICP备2024098111号-1

上海秋旦网络科技中心：上海市奉贤区金大公路8218号1幢 联系电话：17898875485

上海秋旦网络科技中心：上海市奉贤区金大公路8218号1幢联系电话：17898875485