CPU与GPU在计算机视觉模型中的应用比较

在计算机视觉模型的训练和推理中,GPU优化计算一直是主流选择。然而,随着技术的发展,专为特定任务定制的CPU,如Intel的“冰湖”处理器,也展现出了作为GPU优化计算的有力替代品的潜力。本文将对比基于Intel“冰湖”处理器的Amazon Web Services (AWS)实例与其它常见的AWS GPU实例,以评估它们在计算机视觉应用中的性能表现。

什么是Intel c6i “冰湖”CPU?

Amazon EC2 C6i(“冰湖”)实例搭载了第三代Intel Xeon可扩展处理器,这些处理器在多种工作负载上相较于C5实例提供了高达15%的性价比提升。C6i实例是一种计算优化型实例,旨在提供计算资源与成本之间的卓越平衡。

C6i实例具备许多使其成为计算机视觉应用吸引人的替代方案的特性。首先,C6i实例具有与C5实例相似的2:1内存与vCPU比例,但C6i实例每个实例支持高达128个vCPU,比C5实例多33%。这将为许多计算密集型应用提供更快的性能,从训练计算机视觉模型到处理数据。

C6i实例的网络带宽是C5实例的两倍,使它们成为计算密集型工作负载的理想选择。这包括批量处理、分布式分析、高性能计算(HPC)、广告服务、高度可扩展的多人游戏和视频编码。它们于2021年10月正式发布,并提供以下9种尺寸:

  • 内存容量:提供高达128个vCPU和256 GiB内存的新尺寸,可以在更少的实例上整合工作负载。
  • 高存储容量:高达7.6 TB的本地NVMe基于SSD的块级存储,非常适合处理大型数据集。
  • EBS存储:提供高达80 Gbps的Amazon Elastic Block Store (EBS)带宽。
  • 高本地存储吞吐量:高达2.1 GB/s的快速本地存储吞吐量。
  • 高网络吞吐量:高达200 Gbps的网络带宽,是可比较的C5n实例的两倍。
  • 增强的效率与安全性:C6i实例基于AWS Nitro系统构建,这是一种专用硬件和轻量级虚拟机监视器的组合,几乎将宿主硬件的所有计算和内存资源都交付给实例,以获得更好的整体性能和安全性。

什么是Intel c6i “蓝宝石瀑布”CPU?

R7iz实例是首批搭载第四代Intel Xeon可扩展处理器(代号“蓝宝石瀑布”)的EC2实例,其所有核心的涡轮频率高达3.9 GHz。蓝宝石瀑布旨在提供高性能计算能力,非常适合人工智能、云计算、高性能计算(HPC)、数据分析模拟以及其他需要高计算性能和高内存占用的工作负载。

这些实例在基于x86的EC2实例中每个vCPU的性能最高,并且比旧的z1d实例提供高达20%的性能提升。实例基于AWS Nitro系统构建,这是一种专用硬件和轻量级虚拟机监视器的组合,几乎将宿主硬件的所有计算和内存资源都交付给实例,以获得更好的整体性能和安全性。

为了增加内存和可扩展性,R7iz实例提供多种尺寸,包括两种裸机尺寸,高达128个vCPU和高达1,024GiB的内存。R7iz实例是首批使用DDR5内存的基于x86的EC2实例,提供高达2.4倍于可比高频率实例的内存带宽。它们还提供高达50 Gbps的网络速度和40 Gbps的Amazon Elastic Block Store (EBS)带宽。

在大型语言模型领域,蓝宝石瀑布非常适合微调预训练变换器模型。这些实例目前正在预览中,可以请求访问。

测试过程

为了确保公平比较,使用以下参数和方法对所有基准测试实验进行了记录。

首先,对具有以下特征的单个图像进行了单次推理测试:

  • 宽度为393px,高度为487px。
  • 一个注释文件,包含名为“头盔”的类别数据。
  • 推理是在托管的Roboflow端点上使用“ROBOFLOW 2.0 OBJECT DETECTION (FAST)”模型进行的。

然后,对每个实例使用相同的100张图像进行了多次推理测试。测试数据集具有以下特征:

  • 图像大小从约400x400到约600x600像素不等。
  • 文件中的注释数量从一到三个对象不等。
  • 推理是在托管的Roboflow端点上使用“ROBOFLOW 2.0 OBJECT DETECTION (FAST)”模型进行的。

使用“mi-003f25e6e2d2db8f1”AWS GPU映像进行GPU测试。使用“ami-0574da719dca65348”冰湖映像进行Intel Ice LakeCPU测试。

测试结果

在完成上述规格的基准测试后,得出了以下表格中记录的结论。

实例类型 冰湖c6i.2xlarge 蓝宝石瀑布r7iz.2xlarge g4dn.2xlarge g5.2xlarge p3.2xlarge
单次推理速度结果 (ms) 19.23 17.62 17.84 16.89 15.07
多次推理速度结果 (秒) 2.16 2.01 1.98 1.51 1.38
多次推理速度结果 (FPS) 51.8 63 71 116 122
实例成本 (us-east-1按需定价) $0.34 待定 $0.752 $1.212 $3.06
GPU实例 非GPU - 第三代Intel Xeon GPU 第四代Intel Xeon可扩展处理器 T4 A10G V100
FPS / 实例成本 152 待定 94 95 40

数据显示,c6i.2xlarge在推理速度方面并不是最高的,但c6i.2xlarge实例提供了最佳的性价比。这个实例可以成为一般计算机视觉推理需求的优秀工作实例。

当升级到更昂贵的选项时,应该考虑成本增加并不与性能增加成线性关系。更高的成本会导致收益递减。

Intel c6i “冰湖”CPU芯片是NVIDIA的一个很好的替代品,适用于寻求合理价格和良好性能的消费者。作为AWS实例类型,c6i在不增加租用GPU实例的额外开销的情况下,提供了价格与性能之间的极佳平衡,并提供了一系列标准的实例尺寸,以满足特定使用需求。

Intel Sapphire Rapids CPU芯片甚至比冰湖芯片具有更好的推理加速能力。尽管这些实例目前在AWS中处于预览阶段,但认为它们的价格将与冰湖实例相似,提供了另一个成本较低的GPU替代品。

从AWS管理的角度来看,运行CPU实例比运行GPU实例更简单,并减轻了最受欢迎GPU的常见可用性问题。但是,如果需要尽可能高的推理速度,基于GPU的实例可能是更合适的选择。

沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485