在计算机视觉模型的训练和推理中,GPU优化计算一直是主流选择。然而,随着技术的发展,专为特定任务定制的CPU,如Intel的“冰湖”处理器,也展现出了作为GPU优化计算的有力替代品的潜力。本文将对比基于Intel“冰湖”处理器的Amazon Web Services (AWS)实例与其它常见的AWS GPU实例,以评估它们在计算机视觉应用中的性能表现。
Amazon EC2 C6i(“冰湖”)实例搭载了第三代Intel Xeon可扩展处理器,这些处理器在多种工作负载上相较于C5实例提供了高达15%的性价比提升。C6i实例是一种计算优化型实例,旨在提供计算资源与成本之间的卓越平衡。
C6i实例具备许多使其成为计算机视觉应用吸引人的替代方案的特性。首先,C6i实例具有与C5实例相似的2:1内存与vCPU比例,但C6i实例每个实例支持高达128个vCPU,比C5实例多33%。这将为许多计算密集型应用提供更快的性能,从训练计算机视觉模型到处理数据。
C6i实例的网络带宽是C5实例的两倍,使它们成为计算密集型工作负载的理想选择。这包括批量处理、分布式分析、高性能计算(HPC)、广告服务、高度可扩展的多人游戏和视频编码。它们于2021年10月正式发布,并提供以下9种尺寸:
R7iz实例是首批搭载第四代Intel Xeon可扩展处理器(代号“蓝宝石瀑布”)的EC2实例,其所有核心的涡轮频率高达3.9 GHz。蓝宝石瀑布旨在提供高性能计算能力,非常适合人工智能、云计算、高性能计算(HPC)、数据分析模拟以及其他需要高计算性能和高内存占用的工作负载。
这些实例在基于x86的EC2实例中每个vCPU的性能最高,并且比旧的z1d实例提供高达20%的性能提升。实例基于AWS Nitro系统构建,这是一种专用硬件和轻量级虚拟机监视器的组合,几乎将宿主硬件的所有计算和内存资源都交付给实例,以获得更好的整体性能和安全性。
为了增加内存和可扩展性,R7iz实例提供多种尺寸,包括两种裸机尺寸,高达128个vCPU和高达1,024GiB的内存。R7iz实例是首批使用DDR5内存的基于x86的EC2实例,提供高达2.4倍于可比高频率实例的内存带宽。它们还提供高达50 Gbps的网络速度和40 Gbps的Amazon Elastic Block Store (EBS)带宽。
在大型语言模型领域,蓝宝石瀑布非常适合微调预训练变换器模型。这些实例目前正在预览中,可以请求访问。
为了确保公平比较,使用以下参数和方法对所有基准测试实验进行了记录。
首先,对具有以下特征的单个图像进行了单次推理测试:
然后,对每个实例使用相同的100张图像进行了多次推理测试。测试数据集具有以下特征:
使用“mi-003f25e6e2d2db8f1”AWS GPU映像进行GPU测试。使用“ami-0574da719dca65348”冰湖映像进行Intel Ice LakeCPU测试。
在完成上述规格的基准测试后,得出了以下表格中记录的结论。
实例类型 | 冰湖c6i.2xlarge | 蓝宝石瀑布r7iz.2xlarge | g4dn.2xlarge | g5.2xlarge | p3.2xlarge | |
---|---|---|---|---|---|---|
单次推理速度结果 (ms) | 19.23 | 17.62 | 17.84 | 16.89 | 15.07 | |
多次推理速度结果 (秒) | 2.16 | 2.01 | 1.98 | 1.51 | 1.38 | |
多次推理速度结果 (FPS) | 51.8 | 63 | 71 | 116 | 122 | |
实例成本 (us-east-1按需定价) | $0.34 | 待定 | $0.752 | $1.212 | $3.06 | |
GPU实例 | 非GPU - 第三代Intel Xeon | 非GPU | 第四代Intel Xeon可扩展处理器 | T4 | A10G | V100 |
FPS / 实例成本 | 152 | 待定 | 94 | 95 | 40 |
数据显示,c6i.2xlarge在推理速度方面并不是最高的,但c6i.2xlarge实例提供了最佳的性价比。这个实例可以成为一般计算机视觉推理需求的优秀工作实例。
当升级到更昂贵的选项时,应该考虑成本增加并不与性能增加成线性关系。更高的成本会导致收益递减。
Intel c6i “冰湖”CPU芯片是NVIDIA的一个很好的替代品,适用于寻求合理价格和良好性能的消费者。作为AWS实例类型,c6i在不增加租用GPU实例的额外开销的情况下,提供了价格与性能之间的极佳平衡,并提供了一系列标准的实例尺寸,以满足特定使用需求。
Intel Sapphire Rapids CPU芯片甚至比冰湖芯片具有更好的推理加速能力。尽管这些实例目前在AWS中处于预览阶段,但认为它们的价格将与冰湖实例相似,提供了另一个成本较低的GPU替代品。
从AWS管理的角度来看,运行CPU实例比运行GPU实例更简单,并减轻了最受欢迎GPU的常见可用性问题。但是,如果需要尽可能高的推理速度,基于GPU的实例可能是更合适的选择。