在数据分析和机器学习领域,团队成员通过解决复杂的商业问题,为组织带来转型价值。数据科学团队由多种角色组成:数据工程师构建数据基础,分析师探索和进行描述性分析,数据科学家创建高级机器学习模型,商业智能工程师进行数据可视化,机器学习工程师部署模型。所有这些角色必须协同工作,以成功推动组织的数据科学项目。
(此处假设有一张图片,但由于是文本格式,无法显示)
数据科学家作为数据的消费者,为了创建健壮的分析解决方案,了解数据的收集、存储和准备方式至关重要。这有助于他们选择合适的方法和工具来提取数据、提取洞察并设计模型。数据科学团队可能需要定期与数据工程团队互动,以获取新数据、分享衍生表的额外数据信息——了解这些概念可以提高对话效率。
随着对数据使用合规性和伦理性的重视增加,数据科学团队应(已经)密切参与数据法规,拥有这些知识有助于保持合规并降低数据法规风险。
简而言之,数据科学团队需要在不违反数据法规的情况下,有效地从(大数据)中提取最大价值,了解数据工程概念有助于他们更好地做到这一点。
数据科学家可能不了解的是,他们在设计仪表板和创建模型时更熟悉的是基于存储在数据仓库中的数据,这些数据源自数据湖。数据科学家可能不知道查询数据仓库的最佳技术,以及如何全面地查看这些数据。
数据仓库是从多个来源创建的中央真相数据库(每个部门可能仍然有自己的数据仓库),通常具有非规范化结构(以加快查询速度),每个表都为潜在的商业案例准备和结构化。数据湖是数据仓库之前的一步,其中存储原始数据(包括非结构化数据),所有数据都被保留,即使其目的可能尚未定义。
对数据科学家的帮助在于,机器学习模型/分析解决方案的质量取决于其数据,因此数据科学家了解数据的来源至关重要。在大多数数据科学项目中,80%的时间用于数据整理,因此了解数据仓库并能够理解/创建/请求分析就绪数据集/数据集市可以帮助提高效率并缩短项目时间线。数据湖可以帮助数据科学家在发现练习中识别用于用例的数据。
数据科学家可能不了解的是,收集的数据和呈现给分析的数据在最终进入数据仓库或分析文件之前,通常涉及大量的预处理和传输步骤。大多数数据科学家在学习机器学习/人工智能时可能已经使用了已经准备好的数据,这消除了需要,但在实际的机器学习设计中,数据科学家通常需要根据用例准备和修改数据——他们肯定需要知道收集了哪些数据以及它是如何最终进入特定字段的(例如,Null性别是否意味着用户不想分享,或者意味着数据不可用,或者两者都是——数据工程团队会有这些答案)。
ETL是“提取、转换和加载”的数据工程步骤,这些步骤在数据准备中是必需的,无论是将其存储在仓库中还是用于机器学习模型/分析用例。它涉及从源(例如,存储在Adobe云中的网站上的Adobe分析)获取数据,准备数据源,然后将其转换为与业务相关的格式(例如,将组织的唯一客户ID集成,将货币从本地货币更改为美元),然后将其加载到数据仓库/湖中的一个或多个表中。有时,数据在加载后进行转换,这称为ELT。
数据管道是数据从一个位置移动到另一个位置的一系列连接和步骤。数据源是定期通过ETL过程摄取到数据仓库的数据块。
对数据科学家的帮助在于,机器学习模型/分析解决方案不仅仅是一次性的,需要不断更新和刷新——因此,机器学习和数据管道需要这样做。数据ETL概念可以应用于机器学习预处理,以制作可以在机器学习实施期间使用的、生产就绪的代码和工作流。了解ETL过程可以帮助理解数据血统和正确解释数据(例如,了解“年龄”数据是在销售点手动收集的还是自动的,以及在存储之前将映射应用于年龄à年龄带可以帮助更好地设计机器学习模型)。
数据科学家可能不了解的是,数据是所有分析解决方案的基础,如果数据集的任何部分被更改,它将完全破坏任何下游模型等创建的内容,通常没有检查来逻辑检查特定上下文中的数据一致性(例如,如果突然每位客户的收入从100美元增加到800美元,而没有业务环境的任何变化,那么它将导致错误的机器学习分数和错误的仪表板)。因此,数据科学团队必须与数据治理和工程团队密切合作,以在所有关键路径上设置检查,以确保所有模型和分析始终获得正确的数据。
数据治理是一个更广泛的术语,用于定义组织如何管理数据目标、范围、所有权、隐私和安全,包括标准化流程和数据。数据质量是数据治理的一个子集,侧重于对数据的完整性、一致性进行持续监控,并计划处理数据异常。例如,如果一个组织必须摄取社交媒体数据,那么数据治理将进行所有评估和规划,然后在数据质量下评估接收到的数据。
对数据科学家的帮助在于,数据质量有助于创建健壮的分析解决方案,并保持数据科学团队的声誉和信心。如果主动识别并由IT、数据科学和业务团队共同解决,它可以防止返工和错误的业务决策。这就像模型输出监控,但在这种情况下,输入到数据仓库的数据被密切监控,以报警任何异常。
数据科学家可能不了解的是,使用的数据可能受到法律限制,甚至创建的机器学习模型可能存在偏见,并以不符合道德标准的方式使用数据。任何法律影响或品牌形象事件可能是由数据科学团队完成的工作驱动的。由于数据科学团队在处理数据和分析解决方案方面发挥领导作用,因此它们对其影响负责。令人惊讶的是,许多分析团队不了解这一点,也没有为此做好准备。用户同意可能没有为数据科学团队用于的用例收集。
数据法规指的是管理数据收集、披露、存储、使用以及在其使用周期结束时清除的规则(例如GDPR、CCPA)。数据伦理指的是数据的道德使用、透明度、无偏见和正当使用(例如,不使用社会阶层数据来拒绝客户贷款,即使某个阶层可能具有不良的还款历史)。
对数据科学家的帮助在于,它防止了以正确方式使用数据的法律、品牌和声誉风险。它有助于开发可以作为组织内示例的客户友好型模型。更好地管理对敏感数据的访问,以避免数据共享落入错误之手,从而有助于设计更好的数据治理策略。
分析栈:将所有内容整合在一起——它将所有元素(这里提到的4个)合并为分析团队消耗以产生结果的单一实体。通常,它看起来像下面这样,有一些变化。
数据科学团队必须关注这四个因素,以建立一个有弹性和稳定的实践,并继续为业务增加价值,保持高质量。