数据工程师凭借其对软件和硬件工具的了解,以及构建灵活数据管道的天赋,其能力是无与伦比的。然而,为什么有志于成为数据科学专业人士的人没有被教授数据工程的概念呢?毕竟,“数据科学家的能力取决于他/她能够访问的数据。”而数据工程师正是那些构建强大管道以转换数据,使数据科学家能够使用它们的人。他们在任何机器学习项目中都是关键的一环。只需看看过去五年中“数据工程师”一词在谷歌上的搜索量激增就知道了:令人难以置信!
想象一下,数据工程师就像一级方程式赛车的制造者。这个人可以成就或破坏一个冠军车手——他/她的手决定了赛车的流畅性和制造质量,对吧?这就是数据工程师在机器学习项目中所做的事情。鉴于这一角色的重要性和对数据工程专业人士的需求,在DataHack Summit 2019上增加了更多关于该主题的会议!将通过杰出演讲者更广泛地了解数据工程及其重要性,他们还将采取实践方法来处理数据工程。只剩下一周的时间了,所以:立即预订座位!
2019年DataHack Summit的数据工程会议
以下是2019年DataHack Summit上一些精彩的数据工程会议:
- 将机器学习模型投入生产的MLOps
- 使用Kafka和Spark处理高速数据流
- 数据工程实践——大规模数据处理
- 使用在线学习分析流数据
- 关于使用TensorFlow Serving部署深度学习模型的一切
- 使用PyTorch将深度学习模型投入生产
以下是一些可能会发现有用的数据工程资源的综合列表:
想要成为一名数据工程师吗?这里有一份全面的资源列表,帮助开始:
- Hack会话
- 将机器学习模型投入生产的MLOps
- 使用Kafka和Spark处理高速数据流
- 数据工程实践——大规模数据处理
- 使用在线学习分析流数据
- 关于使用TensorFlow Serving部署深度学习模型的一切
- 使用PyTorch将深度学习模型投入生产
Hack会话是一小时的实践编码会话,涉及机器学习、深度学习、强化学习、自然语言处理等领域的最新框架、架构和库。
可能听说过数据科学的80/20规则。它指出,数据科学家80%的时间都花在处理混乱的数据上,只有20%的时间用于进行分析。这或多或少是真的,但有一个警告。直到最近才被忽视的一个关键方面是数据科学特别是机器学习管道的操作化和部署。无论是初创企业还是企业,都很常见听到机器学习项目卡在概念验证阶段。这是项目的成败方面。需要知道它如何运作以及它如何适应机器学习管道。
Akash Tandon,Atlan的高级数据工程师,将在“将机器学习模型投入生产的MLOps”的实践Hack会话中,重点介绍如何在本地和云平台上部署机器学习模型。他将借鉴软件工程和DataOps学科的相关原则。他还将涵盖各种概念,包括机器学习CI/CD管道的需求、重新训练、代码/模型/数据的版本控制、容器化、推理API和监控。
Spark和Kafka——大数据领域中最广泛使用的工具之二。当阅读有关如何设置或部署数据工程管道时,总是遇到它们。它们是数据科学家工具箱中的重要工具——确保精通它们。
Durga Viswanatha Raju,一位资深的大数据和数据工程专家和领导者,将在“使用Kafka和Spark处理高速数据流”的Hack会话中展示这些工具。这承诺将是一个非常有趣且知识丰富的会话。以下是他计划涵盖的快速概述:
- Kafka生态系统概述
- 使用Kafka Connect将数据从日志文件导入Kafka主题
- 使用Spark Structured Streaming处理数据
- 显示流分析结果
- 将结果存储到数据库(如HBase)的概述
当处理大量数据时,数据工程变得至关重要。复杂性增加,处理如此庞大的数据量变得困难——那么如何将数据工程融入现有的机器学习管道呢?在开始分析之前,以正确的方式结构化数据很重要。不同的来源意味着不同的模式,提取逻辑,去重,并与变化的数据源保持同步,除了许多其他挑战。这就是数据工程特别是数据集成技术的用武之地。
在Amit Prabhu和Rishabh Raj的Hack会话中,将获得有关数据集成来源的见解以及与之相关的的最佳实践。数据工程的需求及其在数据科学中的重要性也将在更广泛的层面上得到强调。
知道数据流是什么吗?它如何工作,为什么每个数据科学家都应该意识到它?如果不是,需要立即纠正这一点!
最连续的数据系列是时间序列数据,如交通传感器、健康传感器、事务日志、活动日志等。实际上,物联网设备(各种传感器)正在辐射实时数据。流式传输如此高容量和速度的数据带来了自己的一系列挑战:
- 一次性通过
- 无限数据
- 数据积累的极高速度
- 内存限制
- 概念漂移,即传入数据的分布发生变化
由于这些独特的挑战,传统的批处理方法无效,需要新的方法。因此,有杰出的演讲者Dr. Sayan Putatunda,他将在DataHack Summit 2019上的“使用在线学习分析流数据”的演讲中讨论流数据分析的需求,并与分享为什么传统的批处理方法不足够。
啊,最喜欢的话题之一——部署深度学习模型。这在大多数在线课程中没有教授,很少在聚会上讨论,而且很多有抱负的数据科学家并不知道它。然而,它是行业中每个深度学习项目的关键部分。
在部署这些深度学习模型时,可能会遇到一些挑战,例如模型版本控制、模型的容器化等。
可以使用Flask和Django等Web框架将模型包装成REST API并公开API。但这种解决方案需要开发人员编写和维护代码来处理对模型的请求,并支持其他部署相关功能。为了解决这个问题,TensorFlow引入了TensorFlow Serving,这是一个灵活、高性能的机器学习模型服务系统,专为生产环境设计。
- 数据必须驻留在客户端,这要求模型在移动电话、物联网设备等设备上运行
- 处理多个用户请求
- 处理可以有近乎实时要求的应用程序,当模型推理时间可以是几秒钟