在当今的商业环境中,数据管理是企业成功的关键因素之一。组织正在以惊人的速度收集数据,以分析和提取业务增强的洞察。随着对数据收集需求的激增,云数据存储成为了一个不可避免的选择,尤其是在性能、可用性、持久性、安全性和成本方面。
AWS
作为顶级的云服务提供商,提供了一流的存储服务,支持对象级存储的卓越特性,具有扩展能力和对所有现有格式的支持。企业和架构师通过做出明智的决策,重构为计算设计和决策,以降低成本,将数据在不同的存储类别之间移动。本文将探讨AWS存储类别,它们提供什么,以及如何选择它们以最小化总体成本。
尽管通过云存储可以降低总体成本,但在组织层面上,数据的量和规模将会激增。随着时间的推移,需求将会变化,那些看似有效和关键的数据将会失去其重要性,业务团队将专注于新数据,导致对现有数据的访问变得不频繁。为了避免这个问题,一个最优的方法是将数据移动到不同的存储类别或删除它。这是大多数团队会选择的路径,因为总体复杂性相对较低。
AWS提供了一个名为生命周期配置的功能,用于根据特定要求将数据移动或删除到特定的存储类别,以实现成本削减。普遍的真理是AWS S3以对象的形式在平面上存储数据。生命周期配置是定义对S3对象组的操作以及如何处理它们的规则。
有两种类型的操作:转换操作定义了将数据从S3标准迁移到特定要求的存储类别的规则;过期操作定义了在达到特定阈值限制后删除对象的规则。让了解何时使用哪种存储类别。
最高级存储类别是智能分层。当业务不确定数据访问频率和规模时,这个类别是降低成本的极佳选择。数据/对象在不同访问层级之间的移动发生在访问模式变化的细粒度级别。
当开发团队测试POC或用例并编写模拟或测试数据到通用桶时,工作是收集统计和stderr日志以在失败时进行分析。对象不是关键的或为企业增加价值,因为它们的访问严格需要分析和从崩溃或失败中恢复。在这里,访问是不频繁的。利用S3不频繁访问存储类别可以满足这个目的。
当业务希望出于某种原因在指定区域内隔离数据时,使用S3单区域不频繁访问(IA)可以满足这个目的。这个存储类别在指定区域之一维护和复制数据。存储成本比标准或IA存储类别低20%。
当数据与当前趋势无关,或者业务想要备份关键数据时,数据归档就变得重要了。归档数据意味着它只在将来的特定条件下需要。S3 Glacier是一个提供存储数据价值的存储类别,可以在PB规模上存储数据。
S3 Glacier和Glacier的深度归档在延迟和数据检索标准上有所不同。选择它们之间的区别再次纯粹以业务目的为中心。S3 Glacier应该是优化计划中的最后选择,因为Glacier/Deep Archive在考虑数据检索时会收取高额的延迟费用。可以看到读取数据的等待时间有三到十二小时的开销。
生命周期规则:规则包括一个XML策略,定义了存储对象在整个生命周期中的动作。存储生命周期可以从AWS控制台/AWS API/Amazon CLI访问和管理。从生命周期动作的两个类别中,转换动作由PUT和GET定义组成,而过期动作有一个DELETE定义。请求处理触发自S3 API,无论选择哪种提供。
整体定义框架包括作为S3对象的标识符和修饰符的XML标签。例如:
AWS Optimizations/ Enabled 30 S3 Glacier Deep Archive 2000
在以下示例中,配置允许规则作为主要元素来指定整体规范。使用标签标记桶可以极大地有助于对象的管理。配置提供了一个规则标志来处理标签。当用标签标记桶时,可以过滤和管理属于特定标签/类别的所有桶。
实施最佳实践和经过验证的技术,存储和维护开销可以指数级提升,同时降低组织成本。