英偉達對華“合規(guī)芭蕾”策略,國產(chǎn)算力加速“進化升級”
關(guān)鍵詞: 英偉達 芯片出口管制 合規(guī)經(jīng)營 芯片較量 生態(tài)對決
7月16日,美國英偉達公司創(chuàng)始人兼首席執(zhí)行官黃仁勛在第三屆鏈博會開幕式上致辭表示,“中國的開源人工智能是全球進步的催化劑,使每個國家和行業(yè)都有機會參與AI變革”。不久前,其在接受央視新聞采訪時宣布兩個重要進展,美國已批準H20芯片銷往中國,并同步推出了一款全新的、完全合規(guī)的中國特供版專業(yè)級RTX PRO GPU。
英偉達對華“合規(guī)芭蕾”經(jīng)營策略
英偉達H20是專為符合美國特定出口管制要求而設(shè)計的A100/H100替代品。其核心性能,特別是FP64/FP32相較于A100/H100有顯著降低,但通過配備高帶寬HBM3顯存并保留強大的NVLink互聯(lián)能力,旨在維持在特定AI場景的競爭力。
今年4月,美國政府曾暫停向英偉達發(fā)放H20的出口許可證,導(dǎo)致公司面臨超百億美元的潛在損失。根據(jù)英偉達最新財年報告(截至2024年1月26日),中國市場為其貢獻了170億美元的營收,占總銷售額的13%,是其實現(xiàn)增長的關(guān)鍵支柱。
據(jù)報道,英偉達已重新提交H20的銷售申請,并獲得了美國政府將發(fā)放許可證的保證,公司期望能盡快啟動交付。
與此同時,英偉達CEO黃仁勛宣布推出全新的RTX PRO GPU。他將其定位為“智能工廠和物流領(lǐng)域數(shù)字孿生人工智能應(yīng)用的理想選擇”。據(jù)臺媒《電子時報》披露,這款名為RTX PRO 6000D Blackwell的GPU將采用臺積電4N定制工藝,搭載GDDR7顯存,內(nèi)存帶寬高達1.1TB/s。這一規(guī)格使其在處理復(fù)雜數(shù)據(jù)和高負載任務(wù)時具備卓越性能,尤其適用于企業(yè)AI部署和AI工作站。
然而,英偉達在滿足美國不斷調(diào)整的出口限制方面仍面臨挑戰(zhàn)。有消息稱,H20的替代版B30預(yù)計將于9月發(fā)售,其性能參數(shù)在現(xiàn)有基礎(chǔ)上可能進一步受限。傳聞其FP16算力約為80 TFLOPS出頭,F(xiàn)P8接近200 TFLOPS出頭,互連帶寬約為1.5–1.6TB。從整體性能看,B30被認為基本不適合用于AI模型訓(xùn)練。相比之下,H20雖性能受限,但仍能通過優(yōu)化內(nèi)存方案、采用FP8精度及傳統(tǒng)方法勉強用于訓(xùn)練。
事實上,英偉達的對華銷售策略已演變?yōu)橐粓鼍艿?“合規(guī)芭蕾”,通過分層產(chǎn)品線布局實現(xiàn)精準卡位。H20作為專注訓(xùn)練及推理的定制芯片,憑借NVLink 4互聯(lián)與HBM3顯存支撐分布式計算;RTX PRO系列則聚焦專業(yè)可視化與輕量AI 設(shè)計,以GDDR7高帶寬適配數(shù)字孿生場景;即將推出的B30芯片則剝離訓(xùn)練能力,純推理定位進一步收縮功能邊界。這種“功能切割術(shù)”既滿足美方不斷調(diào)整的出口限制條款,又通過差異化產(chǎn)品矩陣覆蓋中國市場從高端訓(xùn)練到邊緣推理的全場景需求,牢牢守住13%的全球營收基本盤。
在技術(shù)綁定層面,英偉達即使硬件性能受限,仍可在軟件端通過CUDA工具鏈、NGC預(yù)訓(xùn)練模型庫形成生態(tài)壁壘,僅PyTorch框架就包含超10萬款基于CUDA 優(yōu)化的模型,開發(fā)者遷移成本高達百萬級代碼量;硬件端則與浪潮、聯(lián)想等中國服務(wù)器廠商深度定制聯(lián)合方案,將單芯片銷售轉(zhuǎn)化為“芯片 + 整機 + 服務(wù)”的捆綁模式,既規(guī)避單賣芯片的政策風(fēng)險,又通過系統(tǒng)級合作深化用戶依賴。
芯片較量之外的生態(tài)對決
從行業(yè)發(fā)展的深層次看,美國政府也逐漸意識到,盡管對高端芯片實施出口管制,但中國在AI芯片領(lǐng)域的巨額投入正推動其加速填補算力缺口,寒武紀、壁仞等企業(yè)流片節(jié)奏提速,華為昇騰910B已進入多地智算中心采購清單,部分國產(chǎn)芯片在性能和應(yīng)用層面已展現(xiàn)出與H20競爭的能力。
國外的相關(guān)GPU各有特點,H20作為特定地緣政治環(huán)境下的產(chǎn)物,最大優(yōu)勢在于保留了NVLink 4的超高互聯(lián)帶寬和大容量HBM3顯存,這對于構(gòu)建大規(guī)模AI集群進行分布式訓(xùn)練和推理至關(guān)重要,能部分彌補其核心計算單元性能(FP64/FP32)被大幅削弱的劣勢,而CUDA 生態(tài)更是其護城河;AMD MI300X 紙面參數(shù)則非常亮眼,尤其是 192GB HBM3 顯存是巨大優(yōu)勢,對處理大模型極其關(guān)鍵,不過 ROCm 生態(tài)是主要瓶頸,好在其正持續(xù)快速改善,同時該芯片功耗較高。
國內(nèi)競品方面,華為昇騰910B 目前國內(nèi)綜合實力最強的替代方案,擁有較高的FP32/FP16算力和較成熟的CANN軟件棧(與MindSpore深度集成),以及華為的端到端解決方案能力,然而受制程限制,其HBM帶寬相對國際旗艦有差距;寒武紀MLU370-X8 通過多芯粒集成實現(xiàn)高算力和大容量HBM2,在推理場景有較好表現(xiàn)和優(yōu)化,但是MLU-Link互聯(lián)帶寬相對NVLink仍有較大差距;摩爾線程MTT S4000 / 百度昆侖芯 K200定位更偏向推理和中端訓(xùn)練市場,性能參數(shù)上與H20/MI300X/910B等旗艦卡差距明顯,但在特定場景,如桌面級推理服務(wù)器、特定模型優(yōu)化可能有成本和部署優(yōu)勢,生態(tài)處于早期發(fā)展階段。
除了硬件參數(shù),全球AI產(chǎn)業(yè)也深刻意識到,算力軟件生態(tài)的成熟度遠比單芯片參數(shù)更能決定技術(shù)落地的廣度和深度,對于正加速追趕的中國算力產(chǎn)業(yè)而言,突破軟件生態(tài)壁壘仍需攻堅三大關(guān)鍵節(jié)點。
首先,當國產(chǎn)芯片F(xiàn)P16算力達到320TFLOPS超越H20時,業(yè)界卻發(fā)現(xiàn)大量開源AI框架仍默認調(diào)用CUDA內(nèi)核。這種硬件領(lǐng)先卻生態(tài)滯后的困境,折射出兼容性戰(zhàn)役的核心價值,國產(chǎn)芯片要打破“能用但不好用”的魔咒,必須構(gòu)建跨架構(gòu)適配層。而兼容性攻堅的終極目標不是復(fù)刻CUDA,而是構(gòu)建“一次開發(fā)、多端部署”的跨架構(gòu)生態(tài)。目前中科院計算所研發(fā)的“異構(gòu)計算中間件”已支持昇騰、寒武紀、AMD等8類芯片架構(gòu)。
其次,CUDA的真正壁壘,在于全球200萬開發(fā)者形成的創(chuàng)新網(wǎng)絡(luò)。國產(chǎn)生態(tài)要實現(xiàn)從“技術(shù)可用”到“開發(fā)者擁護”的跨越,需要建立可持續(xù)的開發(fā)者激勵機制。
最后,當美國商務(wù)部提出“讓中國對美國技術(shù)上癮”的策略時,國產(chǎn)算力生態(tài)更需警惕“表面兼容實則被卡脖子”的陷阱,真正的自主可控,體現(xiàn)在底層指令集到上層應(yīng)用框架的全鏈條可控。
算力軟件生態(tài)的攻堅戰(zhàn),本質(zhì)是場沒有硝煙的標準制定權(quán)之爭。當國產(chǎn)芯片廠商不再糾結(jié)“如何兼容 CUDA”,而是思考“如何讓全球開發(fā)者主動適配國產(chǎn)生態(tài)”時,才算真正突破了算力產(chǎn)業(yè)的致命短板。這場戰(zhàn)役或許需要十年甚至更長時間,但每一行自主代碼的積累,都在為中國算力產(chǎn)業(yè)鋪設(shè)通往全球價值鏈頂端的階梯。
