证明生成的过程中,约有60%的时间花在MSM上,其余时间由NTT/FTT主导。MSM和NTT都存在性能挑战,通常的解决办法:
●MSM可以在多线程上执行,从而支持并行处理。然而,当处理大型数据向量时,例如6700万个参数,乘法运算可能仍然很慢,并且需要大量的内存资源。此外,MSM存在可扩展性方面的挑战,即使在广泛并行化的情况下也可能保持缓慢。
综上来看,内存和带宽是限制证明生成的主要瓶颈。对于显卡来说,这里的内存指的是显存,并不是主板上的内存,主板上的内存主要是参与CPU的计算。当然目前有些芯片技术可以打通主板上的内存和显存,让内存为显存计算来用。
在分析之前,我们先看一下ASIC(Application Specific Integrated Circuit),中文全称是“专用集成电路”。这里特别强调“专用”,“专用”意味着针对单一项目来说会更加有竞争力。相对比,GPU(显卡)是通用计算处理芯片,所以在单一项目上来说“专用”肯定比“通用”更有竞争力。
为了打破英伟达一家独大的局面,前任全球芯片老大英特尔和多年老对手AMD对标CUDA都分别推出了OneAPI和ROCm,Linux基金会更是联合英特尔、谷歌、高通、ARM、三星等公司联合成立了民间号称“反CUDA联盟”的UXL基金会,以开发全新的开源软件套件,让AI开发者能够在基金会成员的任何芯片上进行编程,试图让其取代CUDA,成为AI开发者的开发平台。