沐曦 metax是2020年9月于上海成立,北京、南京、成都、杭州、深圳和武漢等地有多個研發(fā)中心。主導(dǎo)過十多款世界主流高性能GPU產(chǎn)品研發(fā),包括GPU架構(gòu)定義、GPU IP設(shè)計、GPU SoC設(shè)計及GPU系統(tǒng)解決方案的量產(chǎn)交付全流程。
沐曦打造全棧GPU芯片產(chǎn)品,推出MXN系列GPU(曦思)用于AI推理,MXC系列GPU(曦云)用于AI訓(xùn)練及通用計算,以及MXG系列GPU(曦彩)用于圖形渲染,滿足數(shù)據(jù)中心對“高能效”和“高通用性”的算力需求。沐曦產(chǎn)品均采用完全自主研發(fā)的GPU IP,擁有完全自主知識產(chǎn)權(quán)的指令集和架構(gòu),配以兼容主流GPU生態(tài)的完整軟件棧(MXMACA)
可以說沐曦 metax算得上中國版的英偉達(dá)公司!自研的曦云 MXC500 系列 GPU 成功點亮,只用 5 個小時就完成了芯片功能測試,英偉達(dá) A100 / A800 的算力芯片,目標(biāo) FP32 算力 15 TFLOPS(英偉達(dá) A100 的 FP32 性能為 19.5 TFLOPS),采用通用 GPU 架構(gòu),兼容 CUDA
英偉達(dá)A100是一款HPC(高性能計算)AI領(lǐng)域的GPU,A100基于NVIDIA的Ampere架構(gòu),這是一種專為高性能計算和AI工作負(fù)載而設(shè)計的架構(gòu)。Ampere架構(gòu)采用了多個創(chuàng)新技術(shù),如第二代Tensor核心、第三代NVIDIA NVLink高速互聯(lián)技術(shù)和第三代NVIDIA NVSwitch互連交換技術(shù)。
每個A100 GPU擁有6912個CUDA核心(計算單元),54GB的高速HBM2內(nèi)存,約1有9.5 TFLOPS的單精度浮點性能和9.7 TFLOPS的雙精度浮點性能。
A100支持NVIDIA NVLink和NVSwitch技術(shù),可以將多個A100 GPU通過高速互連進(jìn)行直接連接。這樣的互連架構(gòu)提供了更低的延遲和更高的帶寬,有助于處理大規(guī)模的并行計算和數(shù)據(jù)密集型任務(wù)。
不過目前英偉達(dá)有了性能更好的H100!無論是A100還是H100,都和咱們用的RTX系列顯卡不同;英偉達(dá)把卡分為Geforce、 Quadro、 Tesla三個大類,咱們用的都是Geforce,而A100、H100都屬于 Tesla的。首先最明顯的就是后兩者都是計算卡,計算卡沒顯示接口、沒風(fēng)扇 。
A100用的是Ampere架構(gòu),比如RTX4090卡用則是Ada Lovelace架構(gòu),A100用的HBM顯存, 沒有光追單元 大量的FP64雙精度計算單元~更重要的則是價格,這個咱們不是采購企業(yè)所以,我了解到的A100 40GB:大約售價在5000美元至8000美元之間;A100 80GB:大約售價在8000美元至10000美元之間。
咱們的曦云 MXC500:是 MXN100 異構(gòu)GP2U處理器,以及 HBM2E 顯存,單卡算力達(dá) 160TOPS(INT8)和 80TFLOPS(FP16)(1TOPS代表處理器每秒鐘可進(jìn)行一萬億次(10^12)操作)最高 128 路編碼和 96 路解碼的視頻處理能力,兼容 HEVC、H.264、AV1、AVS2 等多種視頻格式,最高支持 8K 分辨率。
其中最值得注意的就是80TFLOPS,也就是浮點運算數(shù)值,這個數(shù)值受到I/O的性能、存儲器的架構(gòu)、緩沖存儲器一致性等影響,理論數(shù)值也實際數(shù)值其實是有差距的,如果完全不管功耗和散熱,RTX4090超頻到3150Mhz,TFLOPS數(shù)值達(dá)到了100。
最后貌似曦云很多的工程師是從AMD來的,兼容的CUDA大概是源于AMD的ROCM的,AMD的 Radeon HD 4850是第一個桌面端達(dá)到1TFLOPS的 芯片組顯卡,512MB、GDDR3還有55nm制程工藝,不怕慢只怕站,希望國產(chǎn)軟硬件廠家都奮力直追,然后趕超!