AMD 計劃在今年晚些時候推出其旗艦AI加速器MI325X,該產品旨在與Nvidia的H200競爭,並提供更高的帶寬。
此次發布表明,AMD正效仿Nvidia的做法,轉向“Instinct”加速器系列的年度發布節奏。
根據目前掌握的資訊,Instinct MI325X與Nvidia的H200非常相似。它是AMD在去年12月的“Advancing AI”活動中詳細介紹的GPU的HBM3e增強版。該組件由八個計算晶片、四個I/O晶片和八個記憶體晶片組成,採用2.5D和3D封裝技術組合而成,是迄今為止最複雜的組件之一。
儘管CDNA 3 GPU晶片驅動著即將推出的晶片,但在FLOPS方面並沒有實質性的變化。該晶片仍然具有1.3 petaFLOPS的BF/FP16計算性能,或者在降至FP8時達到2.6 petaFLOPS。需要指出的是,MI325X在任何給定精度上都比H200更快。
AMD似乎在擴大其相對於Nvidia的記憶體優勢。發布時,192GB的MI300X擁有比H100多兩倍的HBM3記憶體,比即將推出的H200多51GB。MI325X將加速器的記憶體容量提升至288GB,比H200多兩倍,比Nvidia在今年春季GTC上展示的Blackwell晶片多50%。
轉向HBM3e還將使MI325X的記憶體帶寬提高至6TB/秒。儘管與MI300X的5.3TB/秒相比增加了1.3倍,但與最初希望達到8TB/秒的目標相比,仍然有所差距,這在與Nvidia的Blackwell GPU相比時尤為明顯。
關於MI325X的記憶體配置,更多詳情需要等待今年晚些時候的發布。
記憶體容量和帶寬已經成為AI推理的主要瓶頸。在運行8位精度時,每十億參數需要約1GB的記憶體。因此,MI325X能夠容納2500億參數模型,或者在八個GPU系統中接近2萬億參數模型,並且仍然有空間存儲關鍵值快取。
儘管硬體支持FP8是MI300X發布時的主要賣點之一,但AMD在其基準測試中通常專注於半精度性能。去年底,與Nvidia就AMD基準測試的真實性進行爭論時發現,很多基準測試中,AMD依賴於vLLM——一個對FP8數據類型缺乏穩定支持的推理庫。這意味著在推理中,MI300X只能使用FP16。
除非AMD能夠克服這一限制,否則在H200上運行FP8模型將需要在MI325X上使用兩倍的記憶體,從而抵消其288GB大容量可能帶來的任何優勢。更重要的是,H200在FP8浮點性能上將比MI325X在FP16時更高。
儘管AMD更願意與Nvidia的Hopper一代產品進行比較,但更值得關注的是Blackwell系列,據稱該系列將在今年晚些時候進入市場。在其B200配置中,1000W的Blackwell晶片承諾提供高達4.5 petaFLOPS的FP8和2.25 petaFLOPS的FP16計算性能,配備192GB的HBM3e記憶體,並且具有8TB/秒的帶寬。
儘管如此,使用FP/BF16數據類型進行訓練和推理仍然具有一定的價值。今年春天早些時候發布的Gaudi3擁有192GB的HBM2e記憶體和雙晶片設計,能夠輸出1.8 petaFLOPS的FP8和FP16計算性能。這使其比H100/200高出1.85倍,比MI300X/325X高出1.4倍。
當然,這種情況並不總是如此。相當多的努力已經投入到訓練稀疏模型中,特別是在Nvidia和晶圓級競爭者Cerebras方面。至少在推理方面,支持稀疏浮點計算最終可能對AMD和Nvidia有利。
MI300A屬於一個獨特的類別。Nvidia的Grace Hopper和Grace Blackwell超級晶片則是完全不同的產品——它們不共享記憶體,也不太依賴先進的封裝技術。與此同時,Intel的Falcon Shores XPU原計劃像AMD的MI300A一樣將CPU和GPU共同封裝,但最終改為Habana-Gaudi加上Xe圖形處理器。
儘管人工智慧熱度很高,但至今還沒有看到哪家公司因為人工智慧服務真正盈利。自動駕駛在2017年時曾預測幾年後可以商用,但現在仍未真正商業化。與其投身於人工智慧,不如選擇購買GPU,比如這種商業模式——Sell GPU。
留言列表