如何计算ARM处理器的算力

在同构处理器时代,我们一般使用主频来衡量一个处理器的性能。而到了异构处理器时代,随着人工智能、大数据、多媒体编解码对海量数据的计算需求,我们一般使用浮点运算能力来衡量一个处理器的性能。
每秒浮点运算次数(Floating Point Operations Per Second,FLOPS),又称为每秒峰值速度。浮点运算在科研领域大量使用,现在的CPU除了支持整数运算,一般还支持浮点运算,有专门的浮点运算单元,FLOPS测量的就是处理器的浮点运算能力。FLOPS的计算公式如下:

浮点运算能力 = 处理器核数 * 每周期浮点运算次数 * 处理器主频

除了FLOPS,还有MFLOPS、GFLOPS、TFLOPS、PFLOPS、EFLOPS等单位,它们之间的换算关系如下。

MFLOPS:megaFLOPS,每秒10^6次浮点运算,相当于每秒一百万次浮点运算
GFLOPS:gigaFLOPS,每秒10^9次浮点运算,相当于每秒十亿次浮点运算
TFLOPS:teraFLOPS,每秒10^12次浮点运算,相当于每秒一万亿次浮点运算
PFLOPS:petaFLOPS,每秒10^15次浮点运算,相当于每秒一千万亿次浮点运算
EFLOPS:exaFLOPS,每秒10^18次浮点运算,相当于每秒一百亿亿次浮点运算

1946年,世界上第一台通用计算机诞生于美国宾夕法尼亚大学,运算速度为300FLOPS。早期树莓派使用的博通CM2708 ARM11处理器,主频为1GHz,运算速度为316.56MFLOPS。2011年发射的“好奇号”火星探测器,使用的是IBM的PowerPC架构的处理器,主频为200MHz,运算速度相当于Intel 80386处理器的水平,差不多在0.4GFLOPS上下。

Intel的Core-i5-4210U处理器运算速度为36GFLOPS,Microsoft Xbox 360运算速度为240GFLOS,ARM Mali-T760 GPU主频600MHz,运算速度为326GFLOPS,NVIDIA GeForce 840M运算速度为700GFLOPS,相当于0.7TFLOPS

“吃鸡游戏 ”绝地求生的标配显卡NVIDIA Geforce GTX 1060运算速度为3.85TFLOPS,GTX 1080 Ti运算速度为11.5TFLOPS。最新的NVIDIA Tesla V100显卡,运算速度为125TFLOPS,是世界上第一个突破100万亿次的深度学习GPU。

2008年,中国第一台闯入世界前10的超级计算机:中国“曙光”5000A超级计算机,计算速度为230TFLOPS,相当于0.23PFLOPS。我国首台千万亿次的超级计算机“天河一号”运算速度为2.566PFLOPS,美国橡树岭国家实验室的“泰坦”超级计算机算力为17.59PFLOPS,“天河二号”的运算速度为33.86PFLOPS,无锡“神威·太湖之光”的运算速度为93.01PFLOPS,霸占超级计算机榜首多年。2019年11月18日发布的排在第一的是IBM设计的Summit超级计算机,运算速度为154.5PFLOPS,即0.1545EFLOPS。2020年11月最新发布的超级计算机排行榜发布,Summit被日本的Fugaku富岳反超,富岳超级计算机是首次采用全ARM架构的超级计算机,其中包含了7,299,072个core,算力为442PFLOPS,相当于0.442EFLOPS,算力差不多是summit的三倍。

2013年比特币的全网算力为1EFLOPS,2018年5月,比特币的全网算力为35EFLOPS。2020年5月,比特币的全网算力峰值高达70EFLOPS以上,随着比特币价格的上下波动,比特币的全网挖矿算力也随之上下起伏。

Google公司在2017年发布的TPU v2处理器运算能力达到了180 TFLOPS,2019年发布的TPU v3版本,算力是420 TFLOPS。华为2018年发布的昇腾910 AI处理器,CPU算力达到640 TOPS@INT8,浮点运算能力为320 TFLOPS@FP16。这些都是服务器端的CPU算力,不用考虑功耗,所以算力都很高。

为了对比一下算力差距,将单位统一到 GFLOPS 后的数据如下:

一线原厂驱动开发经验,专门为嵌入式精心打造的嵌入式进阶视频教程,详情请点击:王利涛老师个人店