国际AI测试项目现中国黑马，“稀疏化计算”如何打破算力瓶颈？

2022-10-04 来源：全球焊接网 |责任编辑：小球球浏览数：761 全球焊接网

核心提示：全球AI基准评测MLPerf近日揭榜，国产黑马浮现。MLPerf Inference v2.1榜单于9月公布最新结果，多家行业头部公司参与竞争，而墨芯人工智能S30计算卡在开放任务（Open division）测试环境下，以95784 FPS的单卡算力，

全球AI基准评测MLPerf近日揭榜，国产黑马浮现。

MLPerf Inference v2.1榜单于9月公布最新结果，多家行业头部公司参与竞争，而墨芯人工智能S30计算卡在开放任务（Open division）测试环境下，以95784 FPS的单卡算力，夺得Resnet-50模型算力全球第一。同时，墨芯S30运行BERT-Large高精度自然语言处理模型（99.9%）时单卡算力达3837SPS，为英伟达A100的2倍，仅次于英伟达H100。

“这个成绩的亮点在于它展现了我们技术路线所实现的效果，也使得这条技术路线成为大家关注的焦点。”墨芯人工智能创始人王维近日接受界面新闻等媒体采访时表示。

墨芯人工智能（Moffett AI）成立于2018年，总部位于深圳，主要研发云端和终端AI芯片加速方案，创始团队来自卡内基梅隆大学。成立之后，墨芯曾获得凯旋创投、创享基金和云天使基金的天使轮投资，浪潮云海基金战略投资，将门创投、真格基金的Pre-A轮，以及基石资本、大湾区共同家园发展基金，同威资本、华盛资本、深圳天使母基金的A轮投资。

此次测试中，墨芯主打的“稀疏化计算”技术，成为MLPerf测试中实现突破的主要因素，据称该技术能够加速AI计算。

所谓“稀疏化计算”，是一种以人脑得到灵感的模型压缩方法。其过程类似于抽走积木的“叠叠乐”游戏，即保证AI模型不会“坍塌”的同时，通过优化模型，抽走部分参数，以减少深度学习所需的矩阵计算减少计算量，从而缩短取得准确结果的时间，压缩稀疏矩阵还可以减少占用宝贵的内存和带宽。其应用场景几乎覆盖所有AI加速计算模型，包括时下流行的AI“大模型”。

在技术积累上，墨芯首创双稀疏算法，拥有超过30项稀疏化全球专利，首款Antoum处理器芯片已经出货，可实现32倍最高稀疏率。纵观海内外，墨芯所处的此类技术路线少有类似者。

实际上，对于稀疏化计算，学界已有前期探索。过去，研究人员尝试多种技术，抽出参数部分的权重甚至达到了神经网络的95％。但在整个过程中，模型精简所花的时间要远多于他们所节省的时间，还需要付出巨大的努力来弥补精简后的模型精度。此外，适用于一种模型的精简方法往往并不适用于其他模型。

尽管在现实应用中，AI计算仍以相对于稀疏计算的稠密数学计算（dense math）为主，但在AI模型逐渐通用化，以及模型规模急剧膨胀的情况下，如何通过内部模型稀疏化进行加速，将对AI计算层面产生重大影响，因此稀疏化计算近年获得了产业层面应用。以英伟达为例，其在Ampere架构A100 GPU中引入稀疏性支持，可以减少一半权值（即2倍稀疏率）来训练神经网络。

王维表示，在稀疏化的效果上，目前墨芯计算卡已经能够达到4至32倍稀疏率，通过计算卡优化模型，这个过程是“一劳永逸”的，即优化完成后，对AI模型的加速效果可以长久实现。他提到，相较于英伟达，更高的稀疏倍率，意味着在算力、成本、能效比上存在更好的优化空间。

他以目前业界流行的自然语言大模型GPT-3为例称，GPT-3拥有1700多亿参数，若使用GPU来运行模型，需要10张A100的加速卡才能运行，但应用稀疏化算法，一张墨芯S30卡就可以让GPT-3模型跑起来，从而节省成本。

除算法模型层面的稀疏化外，和英伟达以及其他AI芯片公司相同，墨芯也参与芯片、计算卡、开发工具的“全栈”工具链开发。人员构成上，墨芯软硬件开发人员比例为6:4，在软件层面投入的人才更多。

王维解释，尽管稀疏化计算更多是算法层面的事情，但墨芯仍然参与芯片和计算卡开发的原因在于，其主打从算法出发的软硬协同设计，以实现最好的加速效果，“算法的创新虽然是核心创新点，但在有了理论的创新外，还要考虑软硬件的平台支撑，把数学理论变成最终的计算效果。”

据王维透露，墨芯下一步将会在做好稀疏化推理平台的基础上布局稀疏化训练，预计新一代产品将于明年底正式推出。

打赏