一百五十億的需求巨大的缺口，AI圈里苦GPU久矣，瓶頸到底在哪？

2023-08-14 來源：賢集網(wǎng)

1616

GPU Utils 發(fā)布了一份關(guān)于英偉達(dá)GPU——主要是H100的研究報(bào)告，試圖梳理有關(guān)GPU供應(yīng)和需求的相關(guān)問題。在這篇主要針對(duì)美國市場(chǎng)的報(bào)告中，我們看到了目前阻礙大模型和人工智能發(fā)展的關(guān)鍵瓶頸GPU短缺是如何形成和發(fā)展的。

總的來說，GPU瓶頸的出現(xiàn)原因是多方面的，環(huán)環(huán)相扣的復(fù)雜工藝制造流程，半導(dǎo)體周期，對(duì)稀缺資源的搶占與恐慌乃至未曾預(yù)料到的人工智能的突然爆發(fā)，都讓GPU算力變得無比緊張。

對(duì)人工智能的巨大需求也暴露了用于開發(fā)和部署人工智能模型的強(qiáng)大芯片的全球供應(yīng)鏈的局限性。GPU 是一種關(guān)鍵的硬件，可幫助運(yùn)行訓(xùn)練和部署人工智能算法所涉及的無數(shù)計(jì)算。行業(yè)分析師表示，持續(xù)的 GPU 緊縮已經(jīng)影響了大大小小的企業(yè)，包括人工智能行業(yè)的一些領(lǐng)先平臺(tái)，并且至少在一年或更長時(shí)間內(nèi)可能不會(huì)出現(xiàn)有意義的改善。

不過樂觀地看，2024年這一瓶頸或許會(huì)有所緩解。

1、AI 圈里，苦 H100 GPU 久矣

OpenAI 聯(lián)合創(chuàng)始人兼職科學(xué)家 Andrej Karpathy 近日發(fā)文稱“目前硅谷最熱門的八卦，就是誰誰又買了多少塊 H100 GPU。”

特斯拉掌門人馬斯克曾經(jīng)向整個(gè)科技行業(yè)發(fā)出警告，稱巨大的 GPU 危機(jī)即將來臨。今年 4 月，馬斯克曾發(fā)表推文說，“如今不管是人是狗，都在瘋狂購買 GPU?！倍薮蟮男枨?，勢(shì)必引發(fā)嚴(yán)重的供應(yīng)短缺。時(shí)間快進(jìn)到當(dāng)下，每個(gè)人都想搞自己的 AI 產(chǎn)品和業(yè)務(wù)。面對(duì)這樣一場(chǎng)聲勢(shì)浩大的 AI 洪流，即使是像英偉達(dá)這樣的全球巨頭也難以及時(shí)制造出充足的 GPU 貨源。

市場(chǎng)對(duì)高性能 GPU（特別是英偉達(dá) H100）的需求仍在猛增。截至 2023 年 8 月，科技行業(yè)正經(jīng)受英偉達(dá) H100 短缺的嚴(yán)重折磨。GPU 供應(yīng)不足，正在對(duì)嚴(yán)重依賴其進(jìn)行模型訓(xùn)練和推理任務(wù)的 AI 廠商造成重大影響。

微軟最近的年度報(bào)告顯示了人工智能芯片可能長期短缺的最新跡象。該報(bào)告首次將 GPU 的可用性確定為投資者可能會(huì)遇到的的風(fēng)險(xiǎn)因素。

微軟寫道：“我們將繼續(xù)尋找和評(píng)估擴(kuò)大數(shù)據(jù)中心位置和增加服務(wù)器容量的機(jī)會(huì)，以滿足客戶不斷變化的需求，特別是考慮到對(duì)人工智能服務(wù)不斷增長的需求?！?“我們的數(shù)據(jù)中心取決于許可的可建設(shè)土地、可預(yù)測(cè)的能源、網(wǎng)絡(luò)供應(yīng)和服務(wù)器，包括 GPU 和其他組件?！?/span>

微軟對(duì) GPU 的認(rèn)可凸顯了計(jì)算能力的獲取如何成為制約 AI 發(fā)展的關(guān)鍵因素。該問題直接影響正在構(gòu)建人工智能工具和產(chǎn)品的公司，并間接影響希望將該技術(shù)應(yīng)用于自己目的的企業(yè)和最終用戶。

來自 OpenAI 公司的 Andrej Karpathy 表示，“目前硅谷最熱門的八卦，就是誰誰又買了多少塊 H100 GPU?！庇腥さ氖牵珹WS Lambda CEO Stephen Balaban 也提到，“Lambda 將于今年年底之前上線數(shù)千塊 H100——如果您需要 64 塊或者更多的 H100，請(qǐng)?zhí)崆八叫蓬A(yù)約?！睕]錯(cuò)，這寶貝現(xiàn)在就是這么緊俏。

包括 Quora 公司 CEO Adam D’Angelo 和 OpenAI 創(chuàng)始人 Sam Altman 在內(nèi)的多位 AI 領(lǐng)導(dǎo)者，也都表達(dá)了自己對(duì)于 GPU 短缺問題的擔(dān)憂。OpenAI 透露，GPU 供應(yīng)不足阻礙了他們的短期計(jì)劃，包括模型微調(diào)和劃撥專用容量。也許這正是 OpenAI 目前拘囿于 GPT-4，無法進(jìn)一步履行其大語言模型開發(fā)承諾的原因之一。

2、數(shù)十萬張缺口，一百五十億需求

每個(gè)想要在人工智能爆發(fā)中分一杯羹的人都需要GPU。準(zhǔn)確地說，是英偉達(dá)的A100和H100，它們?cè)谟?xùn)練和推理大模型中扮演關(guān)鍵角色。如果要想要從頭訓(xùn)練大模型，至少需要上千張A100或H100，而推理和微調(diào)大模型也至少需要儲(chǔ)存100張。

具體到每家的數(shù)量上，報(bào)告匯總了一些數(shù)據(jù)：GPT4在1萬到2.5萬塊A100上訓(xùn)練，Meta有2.1萬塊A100，特斯拉有7000塊，Stability AI有5000塊，谷歌云大概有2.5萬塊H100，微軟Azure 有1萬到4萬塊，甲骨文可能也有同樣多的H100。值得一提的是，Azure的GPU基本都用來供應(yīng)OpenAI的訓(xùn)練了。

而根據(jù)馬斯克的說法，GPT5的訓(xùn)練可能會(huì)用到3萬到5萬張H100，因此對(duì)未來的估計(jì)上，報(bào)告指出OpenAI可能需要5萬張H100，Meta至少需要2.5萬張（也有人說實(shí)際上需要10萬乃至更多），所有的云服務(wù)廠商，微軟、谷歌云和亞馬遜云以及甲骨文各需要3萬張，私有云服務(wù)商，比如剛剛?cè)谫Y的CoreWeave等總需求是10萬張，而像Claude的開發(fā)者Anthropic這樣的初創(chuàng)公司也都至少需要1萬張GPU。

另外，一些金融公司比如JP Morgan等也在部署A100或H100，因此總體上看，對(duì)H100的需求超過了43萬張。

這還是不算中國市場(chǎng)的情況，由于制裁原因，字節(jié)跳動(dòng)、百度、騰訊和阿里巴巴只能大量購買A100和H100的替代產(chǎn)品A800與H800，這一部分的需求沒有列入其中，其總額高達(dá)50億美金。

如果將這些數(shù)字相加，這就是目前英偉達(dá)面對(duì)的，總計(jì)規(guī)模高達(dá)200億美元的GPU需求。

3、瓶頸到底在哪里？

目前，H100的供應(yīng)已經(jīng)相當(dāng)短缺，有傳言說微軟Azure和谷歌云的容量實(shí)際上已經(jīng)快用完了，亞馬遜云也面對(duì)同樣的情況，傳言目前下單需要等數(shù)月乃至半年。

導(dǎo)致稀缺的原因是多方面的，最根本的是，GPU是一項(xiàng)極端復(fù)雜的技術(shù)，需要世界上最先進(jìn)的生產(chǎn)工藝，而掌握這項(xiàng)工藝的工廠——臺(tái)積電，它的產(chǎn)能是有限的。

目前H100都由臺(tái)積電代工，使用4N工藝，也就是增強(qiáng)型5納米制程（相比之下A100使用的是N7），這幾乎是目前最復(fù)雜的芯片制作工藝，從開始生產(chǎn)到出售給客戶，H100中間經(jīng)歷的生產(chǎn)、包裝和測(cè)試環(huán)節(jié)一共需要6個(gè)月左右，這就意味著對(duì)H100的生產(chǎn)需要英偉達(dá)和臺(tái)積電進(jìn)行提前的布局，這在半導(dǎo)體行業(yè)來說是經(jīng)常的事，但這一次英偉達(dá)和臺(tái)積電顯然都對(duì)H100需求出現(xiàn)了錯(cuò)誤的判斷。

這很好理解，因?yàn)镃hatGPT爆發(fā)是去年底的事，那時(shí)關(guān)于今年的生產(chǎn)計(jì)劃（至少是上半年的計(jì)劃）已經(jīng)規(guī)劃好了，臺(tái)積電總體的生產(chǎn)能力是有限的，還需要在不同的大客戶之間分配，而產(chǎn)能爬坡也需要一個(gè)很長的過程——不要忘記生產(chǎn)H100這種GPU包含著全世界最復(fù)雜的工藝流程。

報(bào)告中特別指出生其中之一的瓶頸在于所謂CoWoS封裝（Chip on wafer on Substrate 芯片、晶圓、基板封裝），它目前的月產(chǎn)量是8000片，今年底有望提升至 11,000 片， 2024 年底則達(dá)到每月 14,500 至 16,600 片左右的水平，也就是說，想要提升一倍的產(chǎn)量，幾乎需要一年半的時(shí)間，這當(dāng)然也是由于生產(chǎn)工藝異常復(fù)雜導(dǎo)致。

這直接影響了H100的生產(chǎn)，更何況并不是只有一家在使用CoWoS封裝工藝，英偉達(dá)的競爭對(duì)手AMD以及博通、思科和賽靈思等都同樣在使用這種工藝制作芯片，又一次，臺(tái)積電的產(chǎn)能瓶頸限制了GPU的供應(yīng)。

另外，H100所使用的HBM3系列內(nèi)存也是一個(gè)生產(chǎn)難點(diǎn)。報(bào)告指出英偉達(dá)主要在使用SK海力士的內(nèi)存，后者是這一領(lǐng)域的領(lǐng)軍者，特別是在HBM內(nèi)存的研發(fā)上。HBM技術(shù)直接把內(nèi)存堆棧放在GPU芯片上，實(shí)現(xiàn)了更高的帶寬和更低的功耗。今年4月20日，SK海力士宣布在全球率先研發(fā)出12層堆疊的HBM3內(nèi)存，單顆容量達(dá)到24GB。內(nèi)存容量越大，意味著GPU可以裝載下更大的模型，然而HBM3內(nèi)存的生產(chǎn)過程也十分復(fù)雜，產(chǎn)量提升同樣困難重重，實(shí)際上另外幾家芯片大廠，比如三星和美光，都很難提升HBM內(nèi)存的產(chǎn)量，據(jù)說SK海力士正在根據(jù)英偉達(dá)的要求增產(chǎn)，在剛剛過去的SIGGRAPH 2023 上，黃仁勛發(fā)布了GH200超級(jí)芯片的更新版，采用了增強(qiáng)的HBM3E內(nèi)存，這可以看作是英偉達(dá)在內(nèi)存領(lǐng)域同供應(yīng)商密切協(xié)作的一個(gè)例子。

4、GPU 稀缺性已成新的護(hù)城河

令事態(tài)雪上加霜的是，業(yè)界專家擔(dān)心當(dāng)前 GPU 稀缺性可能引發(fā)自我強(qiáng)化的循環(huán)。換言之，這種稀缺性本身成為新的護(hù)城河，增強(qiáng)各方囤積 GPU 資源的心理、進(jìn)一步加劇資源不足。也許這就是馬斯克當(dāng)初囤積 GPU 的原因所在。下一代 H100 繼任者預(yù)計(jì)要到 2024 年底才會(huì)推出，這漫長的一年半將反復(fù)折磨用戶們脆弱的神經(jīng)。

2010 年，我們使用黃仁勛的英偉達(dá) GPU，證明無需任何無監(jiān)督預(yù)訓(xùn)練，即可通過簡單的反向傳播實(shí)現(xiàn)對(duì)深度前饋網(wǎng)絡(luò)的訓(xùn)練。2011 年，我們的 DanNet 成為首個(gè)超級(jí)卷積神經(jīng)網(wǎng)絡(luò)。而到如今，計(jì)算成本降低到當(dāng)初的百分之一，但英偉達(dá)公司的市值則漲了 100 多倍……

獲取 H100 已經(jīng)成為 AI 公司面臨的重大難題，也開始阻礙他們的正常運(yùn)營，導(dǎo)致產(chǎn)品發(fā)布和模型訓(xùn)練紛紛出現(xiàn)延遲。AI 熱潮帶來的對(duì)算力前所未有的需求也在加劇這種情況，導(dǎo)致 GPU 制造中使用的各種基本組件均告短缺。

英偉達(dá)一直在支持全球幾乎所有 AI 初創(chuàng)公司，而且似乎在為初創(chuàng)公司提供資助，幫助他們建立業(yè)務(wù)并購買 GPU。如今的英偉達(dá)已經(jīng)在 GPU 市場(chǎng)上建立起壟斷地位，而其他參與方也不得不抱緊這條大腿。于是乎，滿足市場(chǎng)需求的責(zé)任將無人分擔(dān)，只能著落在英偉達(dá)自己身上。

但 GPU 的制造涉及復(fù)雜的工藝流程，需要各種關(guān)鍵組件。內(nèi)存、互連速度（例如 InfiniBand）、緩存和緩存延遲等因素，在 GPU 的實(shí)際性能表現(xiàn)上起著至關(guān)重要的作用。其中任何一種組件的短缺，都有可能導(dǎo)致 GPU 生產(chǎn)延遲、進(jìn)而引發(fā)整體供應(yīng)不足。