首頁 / 原創(chuàng) / 電腦數(shù)碼/ 電腦配件/ 正文

國貨之光—— GPU 沐曦 MXC500點亮成功！競品是訓(xùn)練出GPT的英偉達(dá)A100

電腦配件 06-16 17:39:03 67 0

沐曦 metax是2020年9月于上海成立，北京、南京、成都、杭州、深圳和武漢等地有多個研發(fā)中心。主導(dǎo)過十多款世界主流高性能GPU產(chǎn)品研發(fā)，包括GPU架構(gòu)定義、GPU IP設(shè)計、GPU SoC設(shè)計及GPU系統(tǒng)解決方案的量產(chǎn)交付全流程。

沐曦打造全棧GPU芯片產(chǎn)品，推出MXN系列GPU（曦思）用于AI推理，MXC系列GPU（曦云）用于AI訓(xùn)練及通用計算，以及MXG系列GPU（曦彩）用于圖形渲染，滿足數(shù)據(jù)中心對“高能效”和“高通用性”的算力需求。沐曦產(chǎn)品均采用完全自主研發(fā)的GPU IP，擁有完全自主知識產(chǎn)權(quán)的指令集和架構(gòu)，配以兼容主流GPU生態(tài)的完整軟件棧（MXMACA）

可以說沐曦 metax算得上中國版的英偉達(dá)公司！自研的曦云 MXC500 系列 GPU 成功點亮，只用 5 個小時就完成了芯片功能測試，英偉達(dá) A100 / A800 的算力芯片，目標(biāo) FP32 算力 15 TFLOPS（英偉達(dá) A100 的 FP32 性能為 19.5 TFLOPS），采用通用 GPU 架構(gòu)，兼容 CUDA

英偉達(dá)A100是一款HPC（高性能計算）AI領(lǐng)域的GPU，A100基于NVIDIA的Ampere架構(gòu)，這是一種專為高性能計算和AI工作負(fù)載而設(shè)計的架構(gòu)。Ampere架構(gòu)采用了多個創(chuàng)新技術(shù)，如第二代Tensor核心、第三代NVIDIA NVLink高速互聯(lián)技術(shù)和第三代NVIDIA NVSwitch互連交換技術(shù)。

每個A100 GPU擁有6912個CUDA核心（計算單元），54GB的高速HBM2內(nèi)存，約1有9.5 TFLOPS的單精度浮點性能和9.7 TFLOPS的雙精度浮點性能。

A100支持NVIDIA NVLink和NVSwitch技術(shù)，可以將多個A100 GPU通過高速互連進(jìn)行直接連接。這樣的互連架構(gòu)提供了更低的延遲和更高的帶寬，有助于處理大規(guī)模的并行計算和數(shù)據(jù)密集型任務(wù)。

不過目前英偉達(dá)有了性能更好的H100！無論是A100還是H100，都和咱們用的RTX系列顯卡不同；英偉達(dá)把卡分為Geforce、 Quadro、 Tesla三個大類，咱們用的都是Geforce，而A100、H100都屬于 Tesla的。首先最明顯的就是后兩者都是計算卡，計算卡沒顯示接口、沒風(fēng)扇。

A100用的是Ampere架構(gòu)，比如RTX4090卡用則是Ada Lovelace架構(gòu)，A100用的HBM顯存，沒有光追單元大量的FP64雙精度計算單元~更重要的則是價格，這個咱們不是采購企業(yè)所以，我了解到的A100 40GB：大約售價在5000美元至8000美元之間；A100 80GB：大約售價在8000美元至10000美元之間。

咱們的曦云 MXC500：是 MXN100 異構(gòu)GP2U處理器，以及 HBM2E 顯存，單卡算力達(dá) 160TOPS（INT8）和 80TFLOPS（FP16）（1TOPS代表處理器每秒鐘可進(jìn)行一萬億次（10^12）操作）最高 128 路編碼和 96 路解碼的視頻處理能力，兼容 HEVC、H.264、AV1、AVS2 等多種視頻格式，最高支持 8K 分辨率。

其中最值得注意的就是80TFLOPS，也就是浮點運算數(shù)值，這個數(shù)值受到I/O的性能、存儲器的架構(gòu)、緩沖存儲器一致性等影響，理論數(shù)值也實際數(shù)值其實是有差距的，如果完全不管功耗和散熱，RTX4090超頻到3150Mhz，TFLOPS數(shù)值達(dá)到了100。