在数据科学领域,经常会遇到内存不足的问题,尤其是在尝试在个人计算机上运行复杂的机器学习算法时。这种经历对于许多数据科学专业人员来说都是熟悉的。没有科技巨头那样的无限计算能力,那么该怎么办呢?这就是云计算的力量改变了数据科学的地方。亚马逊凭借其AWS产品,在数据科学市场上取得了前所未有的成功。
近年来,云计算的增长势头迅猛。现在几乎每个组织都在使用云计算服务。预计到2020年底,所有技术支出的70%将投入到云服务中。知道吗?AWS在2020年第一季度的收入达到了100亿美元,几乎是其最接近的竞争对手的两倍!无论是数据科学家还是数据分析师,每个数据科学专业人员都需要学习AWS以及它是如何工作的。
目录
- 什么是亚马逊网络服务(AWS)?
- 亚马逊网络服务的历史
- 亚马逊网络服务提供的服务
- 为何不能仅使用本地系统完成所有数据任务
- 亚马逊网络服务如何帮助?
什么是亚马逊网络服务(AWS)?
AWS是亚马逊提供的云计算平台,提供基础设施即服务(IaaS)、平台即服务(PaaS)和软件即服务(SaaS)等服务,采用按需付费的方式。它在2006年推出,最初用于处理亚马逊的在线零售业务。AWS主要有以下三个产品:
- EC2(Amazon Elastic Compute Cloud):EC2允许用户租用虚拟机/服务器来运行自己的应用程序。这些服务器提供不同的操作系统,亚马逊根据服务器的计算能力和容量(例如硬盘容量、CPU、内存等)以及服务器运行时间来收费。
- Glacier:Glacier是一种低成本的在线文件存储网络服务。Amazon Glacier旨在长期存储不需要快速检索的非活动数据。
- S3(Amazon Simple Storage Services):S3通过Web服务接口提供对象存储,其可扩展性和高速度是其优势。
AWS为消费者提供了许多优势,包括安全性、合规性、混合架构、可扩展性和按需付费等。
AWS最初于2002年推出,当时只提供少数服务。2006年,AWS推出了包括Amazon S3云存储、SQS(Simple Queue Service)和EC2在内的云产品,从而标志着其进入了在线核心服务行业。2009年,AWS在欧洲进行了国际扩张,推出了S3和EC2。Elastic Block Store(EBS)提供块级存储,Amazon CloudFront作为内容分发网络被纳入AWS。多年来,AWS平台增加了许多服务,使其成为一个成本效益高且高度可扩展的平台。现在,AWS在全球各地都有数据中心,包括美国、日本、欧洲、澳大利亚和巴西。
亚马逊网络服务提供的服务
AWS在各个领域提供以下服务:
- 计算服务:EC2(Elastic Compute Cloud)、EKS(Elastic Container Service for Kubernetes)、Lambda、Amazon LightSail、Elastic Beanstalk
- 数据库服务:Neptune、RDS、Aurora、RedShift、DynamoDB、ElastiCache
- 安全服务:KMS(Key Management Service)、AWSIAM(Identity and Access Management)、Inspector、WAF(Web Application Firewall)
- 存储服务:Amazon Glacier、S3(Simple Storage Service)、AWS Snowball、Elastic Block Store
- 迁移服务:Snowball、DMS(Database Migration Service)、SMS(Server Migration Service)
- 分析服务:Kinesis、QuickSight、EMR(Elastic Map Reduce)、Data Pipeline、CloudSearch、Athena、ElasticSearch
- 管理工具:CloudWatch、CloudFormation、CloudTrail、OpsWorks、Config、AWS Auto Scaling
- 消息服务:Pinpoint、SQS、SES、SNS
更多关于AWS提供的服务信息,请点击。
为何不能仅使用本地系统完成所有数据任务
回想一下,当系统响应缓慢时,列出了本地系统需要克服的问题列表:
- 部署任务的系统处理能力低,会影响及时性。在处理大量数据时,一定注意到了这一点,敢肯定一定想过一个外部的、集中管理的系统。
- 大型数据集不适合IDE的系统内存,这是分析或模型训练所必需的。还记得Jupyter Notebook卡住的时候吗?
- 安装和维护自己的硬件成本很高,无论是时间还是金钱。
亚马逊网络服务如何帮助?
相信许多人仍然在想,为什么应该使用AWS?为什么不选择其他服务(比如谷歌的GCP)?让通过以下AWS的优势来回答这个问题:
- 用户友好:AWS有一个非常完善的用户界面,消除了满足IT需求的现场服务器的需求。这简化了程序、软件的部署。AWS满足每一个需求。
- 多样化的工具:在本文前面,看到了AWS提供的多样化服务范围。它是IT和云需求的一站式解决方案,考虑到其效率。
- 计算能力:不需要担心大型数据集是否会适合IDE系统内存。
- 基础设施:AWS全球云基础设施是最广泛、最可靠的云平台,提供全球数据中心的175多种全功能服务。无论需要在全球范围内一键部署应用程序工作负载,还是希望在毫秒级的延迟下构建和部署特定应用程序,AWS都能在需要的时候和地点提供云基础设施。
- 定价:认为这将是最有说服力的点!AWS是云服务中最便宜的平台之一。这对于小企业运作和成长非常有用,而不需要在服务器上分配太多的营运资本。
2020年Gartner魔力象限:云基础设施和平台服务
无论为哪家公司工作,云基础设施将成为日常数据科学工作的重要组成部分,因为公司越来越倾向于使用云计算来解决问题。根据Indeed.com的报告,AWS在技术技能中的份额从2014年的2.7%上升到2019年的14.2%,增长了418%!这是因为AWS的定价模型。AWS采用按需付费模型,按小时或按秒收费。它还提供了预留特定计算能力的选项,享受折扣率。
此外,AWS考虑到无法负担其服务的潜在消费者。对于他们,它提供了AWS免费层服务,允许他们免费获得AWS服务的实践经验。
- 快速学习R编程中的云计算指南
- 使用AWSGlue和PySpark时的必备功能指南!