在当今数据量激增的时代,数据分析、高可用性需求以及安全和备份协议的遵守变得至关重要。阿里云的HybridDB for PostgreSQL服务为这些需求提供了强有力的支持。本文将探讨如何免费开始使用阿里云的HybridDB for PostgreSQL服务。
PostgreSQL(也称为Postgres)被认为是最先进的开源数据库之一,原因有多个。在数据库的旧世界中——即组织、描述、存储、结构化并允许用户查询数据的系统——有一些需要昂贵许可协议的玩家。但也有一些玩家在特性和可扩展性之间提供了有趣的平衡。Postgres,在阿里云HybridDB的帮助下,就是其中之一。
Postgres正式是一个关系数据库管理系统(RDBMS),意味着它解决了基于Edgar Codd发明的关系模型组织数据的问题。自2005年推出8.0版本以来,它已经发展到涵盖新的空间——包括一些非结构化数据——现在,在本年度推出的10版本中,Postgres提供了:
最后一个功能特别重要,因为它为本地开发者(通常是开发环境)提供了启动复杂查询的能力,这些查询将被优化为并行运行,使用多核处理器的全部能力。但是,当数据量达到TB或PB级别时,如何实现同样的事情呢?这被称为大规模并行处理——一个解决方案是使用可以共享负载并提供看起来像单个数据库实例的单一接口的数据库集群。
运行数据库集群是一项复杂的任务,通常,公司中有一个特定的角色(更好的是,一个特定的团队)来处理这个问题。为了提供可靠、可扩展和快速的服务,需要处理无数的重要细节和大量的子任务。幸运的是,像阿里云这样的公司提供了这种服务,可以从零开始,无需成为专家即可获得不错的集群配置。
Greenplum开源项目是基于PostgreSQL 8.2的大规模并行处理数据库。阿里云的HybridDB是提供运行Greenplum和管理安全和备份等任务的服务的云提供商之一。以下是一些优势:
最后一个特别有趣,因为它将HybridDB for PostgreSQL扩展为“结构化和非结构化数据的数学、统计和机器学习方法的数据并行实现”,这意味着将能够在数据库内本地进行高级数据分析。
让通过在阿里云创建账户,并利用他们为新用户提供的300美元(USD)信用来查看这个解决方案。(注册过程很简单,这里不会详细说明。)想法是创建一个实例,它是由至少2个数据库组组成的复合体,这些组将共享相同的CPU、IO、内存和磁盘资源。(请注意,一个组中的资源分配给相同的物理主机。)转到控制台,点击“HybridDB for PostgreSQL”:
几秒钟后,实例将被创建。然后,点击行末尾的“管理”链接:
将通过互联网配置实例的访问权限,因为这只是一个示例。(这种设置非常危险,应该避免在项目设置中使用。在配置实例之前,请阅读安全指南,并与IT安全团队合作。)
接下来,点击左侧面板上的“安全控制”链接,并点击右侧的“添加白名单组”按钮创建一个新的白名单组。将其命名为“internet”,并将白名单设置为“%”(这意味着任何IP地址):
安全(错误)配置完成后,将创建一个新的数据库用户帐户。点击左侧面板上的“帐户管理”链接,然后点击“创建帐户”按钮:
填写详细信息。密码必须包含大写字母、小写字母、符号和数字。(如果忘记了密码,可以从控制台重置。)点击“确定”按钮。为了获得实例的互联网地址,点击左侧面板上的“数据库连接”链接,然后点击“申请互联网地址”按钮。(再次强调,这不是推荐的做法,因为它非常危险。)
现在将使用PgAdmin III作为客户端来测试设置。(可以使用JDBC、ODBC、PSQL、Python、libpq等。)注册一个新服务器并填写详细信息。特别注意“主机”——yourgpdbaddress.gpdb.rds.aliyuncs.com;“端口”——在实例详细信息控制台中显示——以及已经配置的“用户名”和“密码”,然后点击“确定”按钮:
设置完成后,可以使用OSS、mysql2pgsql、pgsql2pgsql或其他工具导入数据,并开始使用。不要忘记查看有关Greenplum项目功能和阿里云HybridDB forPostgreSQL支持的扩展的文档。
实现大规模并行处理有多种方法。HybridDB是其中之一,但市场还提供了其他替代方案,如CitusData、Snowflake Cloud Data Warehouse和Amazon Redshift等。如果用例将从MPP解决方案中受益,请明智地选择提供商。