数据科学与Azure的结合

数据科学的各个前沿领域,如机器学习MLops数据工程,都在以快速和精确的步伐前进。这些领域的未来被微软、亚马逊、Databricks和谷歌等大型企业所定义,它们正在推动这一领域的创新。由于这些快速的变化,获得这些大企业之一的认证,并了解他们的产品供应是有意义的。此外,这些平台提供的端到端解决方案,从可扩展的数据湖到可扩展的集群,无论是测试还是生产,都为数据专业人员提供了便利。从商业角度来看,所有基础设施都在一个屋檐下,无论是云上还是按需的,越来越多的企业由于持续的大流行而倾向于或被迫转向云服务。

DP-100(在Azure上设计和实现数据科学解决方案)如何帮助数据科学家或任何与数据打交道的人?

简而言之,企业从各种来源收集数据,如移动应用、POS系统、内部工具、机器等,所有这些都被存放在不同的部门或不同的数据库中,这对于传统的大型企业尤其如此。对于数据科学家来说,一个主要的障碍是将相关数据汇集到一个单一的屋檐下,以便构建模型并在生产中使用。在Azure的情况下,所有这些数据都转移到一个数据湖中,可以使用SQL池或Spark池进行数据操作,进行数据清洗、模型预处理、模型构建(使用低成本的测试集群)、模型监控、模型公平性、数据漂移和部署(使用高可扩展性、高成本的集群)。数据科学家可以专注于解决问题,让Azure承担重任。

另一个用例场景是使用mlflow(Databricks的开源项目)进行模型跟踪。任何参加过DS黑客马拉松的人都知道,如果没有设置管道,模型跟踪、记录指标和比较模型是一项繁琐的任务。在Azure中,所有这些都可以通过称为实验的东西轻松实现,所有模型都被记录,指标被记录,工件被记录,所有这些都使用一行代码。

关于Azure DP-100

AzureDP-100(在Azure上设计和实现数据科学解决方案)是微软为所有数据爱好者提供的数据科学认证。这是一个自节奏的学习体验,具有自由和灵活性。完成后,可以无忧地在Azure上工作,构建模型、跟踪实验、构建管道、调整超参数等,以Azure的方式进行。

具备Python的基本知识,至少工作3-6个月,这将有助于准备考试。具备机器学习的基本知识。这有助于理解代码,并在考试期间回答ML问题。在Jupyter笔记本或Jupyter实验室工作过,这不是强制性的,因为所有的实验室都在Jupyter笔记本上,很容易使用它们。了解Databricks和mlflow可以提高测试分数,从2021年7月开始,这些概念被包含在DP-100中。考试费用为4500卢比。注册一个免费的Azure账户,将获得13000卢比的信用额度,用这些信用额度可以探索Azure ML。这绰绰有余。但Azure ML只在前30天免费。所以好好利用这个订阅。最重要的是,将考试日期设定为今天起30天后,支付费用,这将是一个好的动力因素。

DP 100考试页面 Azure网页

考试费用约为4500卢比,许多公司在招聘过程中并不期望有认证,这是好的,但许多招聘者并不要求或知道它,所以问题是这值得支付吗?这值得周末吗?答案是肯定的,原因很简单,即使一个人可能是机器学习大师或Python专家,但Azure的内部工作是特定的Azure,许多方法都是Azure特定的,以提高性能。一个人不能只是倾倒Python代码,期望它给出最佳性能。Azure上有许多自动化的过程,例如-automl模块只需一行代码就可以构建模型,超参数调整只需要一行代码。无代码ML是另一个拖放工具,使构建模型变得轻而易举。容器/存储/密钥库/工作区/实验等都是Azure特定的工具和类。创建计算实例,使用管道,mlflow有助于理解MLops概念。如果在Azure上工作,想要探索它的细节,这绝对是一个加分项。总的来说,回报超过了努力。

考试是基于MCQ的,大约有60-80个问题,提供的时间是180分钟。这个时间足以完成和审查所有问题。会问两个实验室问题或案例研究类型的问题,这些是必须回答的问题,不能跳过。这是一个监考测试,所以确保为考试做好准备。微软大约每两年改变一次模式,所以最好查看最新的考试模式。如果将考试准备分为两个步骤,理论和实验室,会更容易。理论非常详细,需要至少1-2周的准备和审查。所有理论问题都可以从微软文档中学习。详细研究这些文档就足够了。这个重要部分构成了最多的问题——使用Azure机器学习构建和操作机器学习解决方案。实验室也很重要。尽管不会问实际的实验室问题,但它有助于理解Azure特定的类和方法。这些构成了大多数问题。不会问机器学习问题,例如,什么是R2分数不会问。可能会问的是如何为实验记录R2分数。所以应该关注Azure上的ML应用。微软也为DP-100提供了一个由讲师带领的付费课程。认为没有必要参加这个课程,因为所有的东西都在MS文档中。实践实验室,大约14个实践,至少练习一次,以熟悉Azure工作区。在参加考试之前复习理论,以免在考试中感到困惑。

设置Azure机器学习工作区 运行实验和训练模型 优化和管理模型 部署和使用模型

git clone https://github.com/microsoftdocs/ml-basics ## 创建工作区 ws = Workspace.get(name='aml-workspace', subscription_id='1234567-abcde-890-fgh...', resource_group='aml-resources') ## 注册模型 model = Model.register(workspace=ws, model_name='classification_model', model_path='model.pkl', # 本地路径 description='A classification model', tags={'data-format': 'CSV'}, model_framework=Model.Framework.SCIKITLEARN, model_framework_version='0.20.3') ## 在管道中运行.py文件 step2 = PythonScriptStep(name = 'train model', source_directory = 'scripts', script_name = 'train_model.py', compute_target = 'aml-cluster') # 定义并行运行步骤配置 parallel_run_config = ParallelRunConfig( source_directory='batch_scripts', entry_script="batch_scoring_script.py", mini_batch_size="5", error_threshold=10, output_action="append_row", environment=batch_env, compute_target=aml_cluster, node_count=4) # 创建并行运行步骤 parallelrun_step = ParallelRunStep( name='batch-score', parallel_run_config=parallel_run_config, inputs=[batch_data_set.as_named_input('batch_data')], output=output_dir, arguments=[], allow_reuse=True)

为测试和生产创建计算集群 创建管道步骤 将Databricks集群连接到AzureML工作区 超参数调整方法 使用数据——数据集和数据存储 模型漂移 差分隐私 检测模型不公平性(MCQ问题) 使用shap解释器进行模型解释。

Scriptrunconfig PipelineData ParallelRunConfig PipelineEndpoint RunConfiguration init() run() PublishedPipeline ComputeTarget.attach 数据集/数据存储方法

Azure机器学习工作区: Azure Databricks创建集群: Azure设计器: 考试日 确保在前一天测试系统。工作笔记本电脑有时会出现问题,所以最好使用个人笔记本电脑。 不允许携带书籍/纸张/笔或其他文具。 监考员会进行初步的基本检查,并让开始考试。 一旦考试提交,分数会立即显示在屏幕上,稍后会通过电子邮件发送。所以不要忘记检查邮件。 认证有效期为2年。

祝好运!下一个目标应该是DP-203(Microsoft Azure上的数据工程)。

沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485