六大门派，围攻云端 AI 芯片光明顶

大千世界 2022年09月13日 21:06 116 0

　　AI 芯片的战场，明显更热闹了。

　　就在上周五，国际权威人工智能(AI)性能基准测试 MLPerf 公布了最新的数据中心及边缘场景 AI 推理榜单结果，无论是参与评选的企业还是实际 AI 芯片表现，都比往届多了不少看头。

　　打头阵的自然还是国际 AI 计算巨头英伟达。这是英伟达(NVIDIA)第一次让其今年刚发布的最新旗舰 AI 加速器 H100 Tensor Core GPU 提交成绩，AI 推理性能足足比上一代 GPU 高出 4.5 倍。

　　高通则通过云端 AI 芯片 Cloud AI 100 的最新评测成绩，证明其在高能效方面依然很能打。

　　国内 AI 芯片企业也不示弱，这次壁仞科技、墨芯人工智能均首次“参战”，并且战绩不俗，在部分模型的成绩甚至超过了英伟达旗舰 AI 芯片 A100 和 H100。

　　壁仞科技共提交了数据中心场景 ResNet 和 BERT 99.90% 精度两个模型的数据，同时包括 Offline 模式和 Server 模式，其离线模式 8 卡整机性能在 BERT 模型下达到英伟达 8 卡 A100 机型性能的 1.58 倍。

　　墨芯的 S30 计算卡则在 ResNet-50 95784 FPS 的单卡算力夺得第一，达到英伟达 H100 的 1.2 倍、A100 的 2 倍。

　　还有韩国 SK 电讯在 2020 年 11 月推出的韩国首个 AI 芯片 Sapeon X220，这次也通过参与测试展现出超过英伟达入门级 AI 加速卡 A2 性能的表现。

　　不过，在今年 6 月训练基准测试榜单中大秀高性能、高能效成绩的谷歌 TPU v4 芯片，并没有出现在此次推理榜单中。

　　此外，英特尔、阿里也分别展示了仅基于其服务器 CPU 的系统在加速 AI 推理方面的性能表现。

　　总的来说，英伟达 A100 依然是横扫各大测试成绩的全能选手，还未上市的 H100 此次只是初露锋芒，预计训练性能的提升会更加“夸张”。

　　国产 AI 芯片虽然只参加了 ResNet、BERT 等部分 AI 模型的评测，但单点战绩已经能与英伟达旗舰计算产品比肩，展现出在跑特定模型时替代国际先进产品的能力。

　　MLPerf 数据中心推理榜单：

　　https://mlcommons.org/en/inference-datacenter-21/

　　MLPerf 边缘推理榜单：

　　https://mlcommons.org/en/inference-edge-21/

　　01. H100 王者登场，英伟达仍然称雄

　　MLPerf 基准测试按部署方式分为数据中心、边缘、移动、物联网四类场景，覆盖六类最具代表性的主流 AI 模型 —— 图像分类(ResNet50)、自然语言处理(BERT)、语音识别(RNN-T)、目标物体检测(RetinaNet)、医学影像分割(3D-UNet)、智能推荐(DLRM)。

　　其中，自然语言理解、医学影像分割和智能推荐 3 个任务设置了 99% 与 99.9% 两种精度要求，以考察提升 AI 推理精度要求对计算性能的影响。

　　截至目前，英伟达是唯一一家在每轮 MLPerf 基准测试都参与所有主流算法测试的公司。

　　英伟达 A100 在最新 MLPerf AI 推理测试榜单中依然大杀四方，在多类模型榜单的性能表现均名列前茅。A100 的继任者 H100 首次在 MLPerf 亮相，连破多项世界记录，其性能比 A100 高出 4.5 倍。

　　▲ 英伟达 H100 性能比 A100 高出 4.5 倍(图源：英伟达)

　　英伟达基于 H100 GPU 单芯片提交了两个系统，一个系统配备 AMD EPYC CPU 作为主机处理器，另一个系统配备英特尔至强 CPU。

　　可以看到，虽然采用英伟达最新 Hopper 架构的 H100 GPU 这次只展示了单芯片的测试成绩，其性能已经在多个情况下超过有 2、4、8 颗 A100 芯片的系统的性能。

　　▲ 英伟达 H100 在数据中心场景所有工作负载都刷新性能记录(图源：英伟达)

　　特别是用在对更大规模、更高性能提出要求的自然语言处理 BERT-Large 模型上，H100 的性能比 A100 和壁仞科技 GPU 超出一大截，这主要归功于其 Transformer Engine。

　　H100 GPU 预计在今年年底发布，后续还会参加 MLPerf 的训练基准测试。

　　此外，在边缘计算方面，将英伟达 Ampere 架构和 Arm CPU 内核集成在一块芯片的英伟达 Orin，运行了所有 MLPerf 基准测试，是所有低功耗系统级芯片中赢得测试最多的芯片。

　　值得一提的是，相比今年 4 月在 MLPerf 上首次亮相的成绩，英伟达 Orin 芯片的边缘 AI 推理能效进一步提高了 50%。

　　▲ 在能效方面，Orin 边缘 AI 推理性能提升多达 50%(图源：英伟达)

　　从英伟达往届在 MLPerf 提交的测试结果，可以看出 AI 软件带来的性能提升越来越显著。自 2020 年 7 月在 MLPerf 上首次亮相以来，得益于 NVIDIA AI 软件的不断改进，A100 的性能已经提升 6 倍。

　　目前，NVIDIA AI 是唯一能在数据中心和边缘计算中运行所有 MLPerf 推理工作负载和场景的平台。通过软硬协同优化，英伟达 GPU 在数据中心及边缘计算中实现 AI 推理加速的成绩更加突出。

　　02. 壁仞科技通用 GPU 参战

　　ResNet 和 BERT 模型性能超 A100

　　壁仞科技今年 8 月刚发布的通用 GPU 芯片 BR104，亦在 MLPerf 首次公开亮相。

　　MLPerf 推理榜单分为 Closed(固定任务)和 Open(开放优化)两类，固定任务主要考察参测厂商的硬件系统和软件优化的能力，开放优化则着重考察参测厂商的 AI 技术创新力。

　　此次壁仞科技参加的是数据中心场景的固定任务评测，参评机型是搭载 8 张壁砺 104-300W 板卡的浪潮 NF5468M6 服务器，壁砺 104 板卡内置 BR104 芯片。壁仞科技提交了 ResNet 和 BERT 99.9% 精度模型的评测，同时包括 Offline 模式和 Server 模式。

　　Offline 模式对应数据在本地可用的情况，比如在 ResNet-50、BERT 模型中，Offline 模式更为重要;Server 模式的数据则来自即时数据，数据以突发和间歇的方式在线送达，比如在 DLRM 中，Server 模式更重要。

　　据悉，壁仞科技这次只选择这两类模型参评，主要考虑到两者是目前壁仞科技的目标客户应用最广泛、最重要的模型，特别是 BERT 模型。

　　▲ 壁仞科技 BR104 在 BERT 模型评选中同时拿下离线和在线模式的整机性能领先(图源：壁仞科技)

　　从测试结果来看，在 BERT 模型的评选中，相较于英伟达提交的基于 8 张 A100 的机型，基于 8 张壁仞科技 BR104 的机型，性能达到了前者的 1.58 倍。

　　▲ 壁仞 BR104 在 ResNet-50 和 BERT 模型评选中单卡性能超过 A100

　　总体来看，壁仞科技 8 卡 PCle 解决方案的性能表现，估计会介乎英伟达 8 卡 A100 与 8 卡 H100 之间。

　　除了壁仞科技自己提交的 8 卡机型外，知名服务器提供商浪潮信息还提交了一款搭载 4 张壁砺 104 板卡的服务器，这也是浪潮信息首次提交基于国产厂商芯片的服务器测试成绩。

　　在所有的 4 卡机型中，浪潮提交的服务器在 ResNet50(Offline)和 BERT(Offline & Server, 99.9% 精度)两个模型下，也夺得了全球第一。

　　对于一家初出茅庐、首次推出芯片的初创公司来说，这个成绩已经非常惊人了。

　　03.墨芯 S30 夺魁图像分类单卡算力 95784 FPS 远超 H100

　　另一家中国云端 AI 芯片企业墨芯人工智能同样首次参评 MLPerf，而且在图像分类模型的推理任务上取得了超过英伟达 H100 的单卡算力表现。

　　墨芯设计 AI 芯片英腾处理器(ANTOUM)时采用了自研双稀疏化技术来实现底层的芯片架构创新，从而兼顾数据中心对高性能和高能效比的需求。在今年的 GTIC 2022 全球 AI 芯片峰会上，墨芯人工智能首次向业内全面发布其首批面向数据中心 AI 推理应用的高稀疏率计算卡 S4、S10 和 S30，分别为单芯片卡、双芯片卡和三芯片卡。

　　▲ 墨芯人工智能 S30 计算卡

　　此次墨芯参加的是开放优化类的测试。根据最新 MLPerf 推理榜单，墨芯 S30 计算卡以 95784FPS 的单卡算力，夺得 ResNet-50 模型算力第一，是 H100 的 1.2 倍、A100 的 2 倍。

　　在运行 BERT-Large 高精度模型(99.9%)方面，墨芯 S30 虽未战胜 H100，却实现了高于 A100 性能 2 倍的成绩，S30 单卡算力达 3837SPS。

　　▲ 运行 ResNet-50 和 BERT-Large 模型时，墨芯 S30 与 A100、H100 的对比(图源：墨芯人工智能)

　　值得一提的是，墨芯 S30 采用的是 12nm 制程，而英伟达 H100 采用的是更先进的 4nm 制程，能够在制程工艺存在代际差的情况下追平两大数据中心主流 AI 模型的性能表现，主要得益于墨芯自主研发的稀疏化算法及架构。

　　MLPerf 的测试要求非常严格，不仅考验各产品算力，同时设置精度要求在 99% 以上，以考察 AI 推理精度的高要求对计算性能的影响，也就是说参赛厂商不能以牺牲精度的方式换取算力提升。这亦证明了墨芯能做到在实现稀疏化计算的同时兼顾精度无损。

　　04. 高能效，高通云端 AI 芯片的王牌

　　高通早在 2019 年就发布的首款云端 AI 芯片 Cloud AI 100，继续坚挺地参评 MLPerf，与一众新 AI 加速器同场竞技。

　　从测试成绩来看，单论在图像处理上的高能效，采用 7nm 制程的高通 Cloud AI 100 芯片依然可以笑傲江湖。

　　▲ 高通 Cloud AI 100

　　MLPerf 最新披露的评测结果中，富士康、创通联达(Thundercomm)、英业达(Inventec)、戴尔、HPE 和联想都提交了使用高通 Cloud AI 100 芯片的测试成绩。可以看出，高通的 AI 芯片已经在被亚洲云服务器市场接纳。

　　高通 Cloud AI 100 有两个版本，专业版(400 TOPS)或标准版(300 TOPS)，都具有高能效的优势。在图像处理方面，该芯片的每瓦性能比标准部件的 NVIDIA Jetson Orin 高 1 倍，在自然语言处理 BERT-99 模型方面的能效亦是略胜一筹。

　　▲ 高通 Cloud AI 100 在 ResNet-50 及 BERT-99 模型测试中的能效比领先(图源：高通)

　　在保持高能效的同时，高通的 AI 芯片并没有以牺牲高性能为代价，一台 5 卡服务器功耗 75W，可实现的性能比 2 卡 A100 服务器高出近 50%。而单台 2 卡 A100 服务器的功耗高达 300W。

　　▲ 高通 Cloud AI 100 的每瓦性能表现(图源：高通)

　　面向边缘计算，高通 Cloud AI 100 在图形处理方面展现出的高能效已经非常有竞争力，不过大型数据中心对芯片的通用性会有更高要求，如果高通想要进一步打入云端市场，可能得在下一代云边 AI 芯片的设计上扩展对推荐引擎等更多主流 AI 模型的支持。

　　▲ 实现边缘服务器高能效，不以牺牲高性能为代价(图源：高通)

　　05. 韩国首款 AI 芯片亮相对打英伟达入门级 AI 加速卡

　　这次 MLPerf 榜单中，我们还看到了在 AI 芯片领域相对缺乏存在感的韩国企业的身影。

　　Sapeon X220 是韩国知名科技企业 SK 电讯自主研发的 AI 芯片，也是韩国第一颗用于数据中心的非存储类商用芯片，能够高速、低功耗地执行 AI 服务所需的大规模计算。

　　▲ Sapeon X220 部分参数

　　其测试结果也很有意思。Sapeon X220 搭载于 Supermicro 服务器上，在数据中心推理基准测试中的性能超过了英伟达去年年底发布的入门级 AI 加速卡 A2 GPU。

　　其中，X220-Compact 的性能比 A2 高 2.3 倍，X220-Enterprise 的性能比 A2 提升 4.6 倍。

　　能效表现同样不错，在基于最大功耗的每瓦性能方面，X220-Compact 的能效是 A2 的 2.2 倍，X220-Enterprise 的能效是 A2 的 2.0 倍。

　　▲ Sapeon X220 系列与英伟达 A2 的性能及能效对比(图源：SAPEON)

　　值得一提的是，英伟达 A2 采用的是先进的 8nm 制程，而 Sapeon X220 采用的是 28nm 成熟制程。

　　据悉，Sapeon 芯片已经应用在智能音箱、智能视频安全解决方案、基于 AI 的媒体质量优化解决方案等应用中。今年 SK 电讯还将 AI 芯片业务独立出来，成立了一家名为 SAPEON 的公司。

　　SAPEON 首席执行官 Soojung Ryu 透露说，未来该公司计划拓展 X220 的各个应用领域，有信心在明年下半年用下一代芯片 X330 与竞品拉开差距，进一步提高性能。

　　06. 英特尔预览下一代服务器 CPU 阿里倚天 710 CPU 首参评

　　尽管云端 AI 推理芯片正呈百家争鸣之势，但截至目前，服务器 CPU 仍是 AI 推理市场的主导者。

　　在此次 MLPerf 榜单中，我们看到仅搭载英特尔至强、阿里自研 CPU 倚天 710 的系统参评，这些系统没有搭载任何 AI 加速器，可以较真实的反映出这些服务器 CPU 的 AI 推理加速能力。

　　在固定任务榜单中，英特尔提交了一个预览版 Sapphire Rapids 2-socket 搭配 PyTorch 软件的系统，推理性能虽被 H100“虐杀”，但已经足够打败 A2。毕竟这是一款服务器 CPU，AI 推理加速能力只是它的加分项，这样看来英特尔至强 CPU 的加速能力已经足够应对常规的 AI 推理任务需求。