AI芯片不是一味追求高性能，低能耗才是AI芯片的主流

2024-05-21 來(lái)源：賢集網(wǎng)

1885

5月16日，日本晶圓代工初創(chuàng)企業(yè)Rapidus宣布與美國(guó)RISC-V架構(gòu)芯片設(shè)計(jì)企業(yè)Esperanto簽署了諒解備忘錄，雙方將就面向數(shù)據(jù)中心的人工智能（AI）半導(dǎo)體研發(fā)展開(kāi)合作，共同開(kāi)發(fā)低功耗AI芯片。

當(dāng)前，盡管GPU缺貨問(wèn)題逐漸緩解，但電力供應(yīng)成為了AI浪潮發(fā)展過(guò)程中出現(xiàn)的又一瓶頸。

業(yè)內(nèi)人士指出，CPU和GPU在促進(jìn)人工智能市場(chǎng)的繁榮方面發(fā)揮了關(guān)鍵作用。然而，最新芯片不斷增加的功耗正在引發(fā)近期危機(jī)。例如，預(yù)計(jì)到2027年，生成式AI處理所消耗的能源將占美國(guó)數(shù)據(jù)中心總用電量的近80%。

數(shù)據(jù)中心是電力需求增長(zhǎng)的重要驅(qū)動(dòng)力。隨著以生成式AI為代表的人工智能時(shí)代到來(lái)，高性能計(jì)算芯片所需的功率不斷增加，推升數(shù)據(jù)中心的耗電量亦同步提升。

資料顯示，Esperanto是一家大規(guī)模并行、高性能、高能效計(jì)算解決方案設(shè)計(jì)企業(yè)，此前曾推出一款采用臺(tái)積電7nm制程打造的ET-SOC-1的RISC-V架構(gòu)眾核AI/HPC加速芯片。而Rapidus一家成立于2022年8月的晶圓代工廠商，由豐田、Sony、NTT、NEC、軟銀、Denso、NAND Flash大廠鎧俠、三菱UFJ等8家日企共同出資設(shè)立。其位于北海道千歲市的第一座工廠“IIM-1”已于2023年9月動(dòng)工，預(yù)計(jì)2025年4月開(kāi)始運(yùn)行試生產(chǎn)線，并引進(jìn)EUV光刻機(jī)等設(shè)備。Rapidus的目標(biāo)是在2027年量產(chǎn)2納米米以下最先進(jìn)邏輯芯片。

而此次Rapidus與Esperanto合作的最初重點(diǎn)就是使未來(lái)的半導(dǎo)體設(shè)計(jì)人員能夠?yàn)閿?shù)據(jù)中心和企業(yè)邊緣應(yīng)用的人工智能推理和高性能計(jì)算工作負(fù)載開(kāi)發(fā)更節(jié)能的解決方案。這將有助于緩解全球數(shù)據(jù)中心能源消耗的不可持續(xù)增長(zhǎng)。

Meta推出超低功耗AI芯片"

Meta去年宣布推出了一款定制芯片，被稱為MTIA，旨在加快生成式AI模型的訓(xùn)練。這是Meta首次推出的AI定制芯片，被列為加速AI訓(xùn)練和推理工作負(fù)載的芯片“家族”之一。

MTIA，即Meta訓(xùn)練和推理加速器，是一款A(yù)SIC芯片，采用開(kāi)源芯片架構(gòu)RISC-V。與主流芯片廠商的產(chǎn)品相比，MTIA芯片的功耗僅為25瓦，大幅降低了能耗。Meta稱，他們?cè)?020年設(shè)計(jì)了第一代MTIA芯片，采用了7納米工藝。第一代芯片的目標(biāo)是提高推薦模型的效率，這些模型用于廣告和其他新聞推送內(nèi)容。在Meta設(shè)計(jì)的基準(zhǔn)測(cè)試中，第一代MTIA芯片處理低等和中等復(fù)雜度的AI模型時(shí)，比GPU效率更高。

Meta的軟件工程師Joel Cohurn在介紹新芯片時(shí)表示，Meta最初使用圖形處理單元（GPU）執(zhí)行推理任務(wù)，但發(fā)現(xiàn)GPU在這方面并不適合。雖然通過(guò)GPU可以對(duì)軟件進(jìn)行優(yōu)化，但在處理真實(shí)模型時(shí)效率較低，配置上也面臨困難和高成本的問(wèn)題。因此，Meta推出了MTIA芯片。

Meta承認(rèn)，在處理高復(fù)雜度的AI模型時(shí)，MTIA芯片還面臨一些問(wèn)題，但指出在中低復(fù)雜度的模型處理方面，它比競(jìng)爭(zhēng)對(duì)手的芯片更加高效。

Meta表示，目前MTIA芯片主要應(yīng)用于Meta應(yīng)用家族的推理，而非訓(xùn)練任務(wù)。然而，Meta強(qiáng)調(diào)MTIA芯片大大提高了單位瓦特的推薦負(fù)載運(yùn)行效率，使公司能夠運(yùn)行更強(qiáng)大、更先進(jìn)的AI工作負(fù)載。

雖然Meta在周四的公告中沒(méi)有透露配置新芯片的具體時(shí)間表，也沒(méi)有提到開(kāi)發(fā)可能用于訓(xùn)練模型的芯片的計(jì)劃，但同時(shí)Meta還宣布計(jì)劃重新設(shè)計(jì)其數(shù)據(jù)中心，針對(duì)以AI為核心的網(wǎng)絡(luò)和冷卻系統(tǒng)進(jìn)行改進(jìn)。據(jù)稱，今年將開(kāi)始建設(shè)首個(gè)相關(guān)數(shù)據(jù)中心的設(shè)施，新設(shè)計(jì)的成本將降低31%，

建造速度也將是目前數(shù)據(jù)中心的兩倍。

英偉達(dá)新AI芯片高算力低能耗，明年成主流

英偉達(dá)（NVIDIA）在GTC大會(huì)推出Blackwell架構(gòu)的AI芯片B100、B200及GB200等，不僅效能大幅提升，成本與能耗同步優(yōu)化，市調(diào)機(jī)構(gòu)TrendForce預(yù)期，B200等產(chǎn)品有望在2024年底陸續(xù)上市，并于2025年成為市場(chǎng)主流。

TrendForce 指出，Blackwell AI服務(wù)器架構(gòu)平臺(tái)是今年GTC大會(huì)亮點(diǎn)產(chǎn)品，以第2代Transformer引擎與第5代NVLink技術(shù)，可支持高達(dá)10兆參數(shù)模型的AI訓(xùn)練與即時(shí)大型語(yǔ)言（LLM）推理。

據(jù)英偉達(dá)表示，Blackwell架構(gòu)繪圖處理器（GPU）配備2080億個(gè)電晶體，采用臺(tái)積電定制化4納米制程制造，透過(guò)每秒10TB的芯片到芯片互連連接成單個(gè)GPU，利用4位浮點(diǎn)AI推論能力支持加倍地運(yùn)算。

英偉達(dá)指出，最新版本的NVLink提供每個(gè)GPU每秒8TB的雙向吞吐量，確保在復(fù)雜的大型語(yǔ)言模型中，實(shí)現(xiàn)576個(gè)GPU間無(wú)縫高速溝通。

英偉達(dá)表示，GB200 NVL72系統(tǒng)串聯(lián)72個(gè)BlackwellGPU和36個(gè)Grace中央處理器（CPU），相較于H100Tensor Core GPU，GB200 NVL72可提供30倍的大型語(yǔ)言模型推論工作負(fù)載效能，并大幅降低成本和能源消耗。

光芯片開(kāi)啟低耗高速計(jì)算

來(lái)自美國(guó)賓夕法尼亞大學(xué)、諾基亞貝爾實(shí)驗(yàn)的研究團(tuán)隊(duì)提出了一種新型 AI 芯片——利用光波進(jìn)行復(fù)雜數(shù)學(xué)運(yùn)算，從而提升計(jì)算機(jī)處理速度并降低能耗。這一研究成果有望為解決當(dāng)前芯片能耗問(wèn)題帶來(lái)新的可能。

相關(guān)研究論文以“Inverse-designed low-index-contrast structures on silicon photonics platform for vector-matrix multiplication”為題，已發(fā)表在 Nature 子刊 Nature Photonics 上。

該論文的通訊作者、本杰明·富蘭克林獎(jiǎng)?wù)芦@得者、賓夕法尼亞大學(xué) H. Nedwill Ramsey 教授 Nader Engheta 表示，由于生產(chǎn)芯片的商業(yè)代工廠的限制，這種設(shè)計(jì)已經(jīng)可以用于商業(yè)應(yīng)用，并有可能被改裝用于圖形處理器（GPU）。“它們可以采用硅光子公司的平臺(tái)作為附加組件，這樣就可以加快訓(xùn)練和分類的速度。”

此外，Engheta 教授也表示，除了速度更快、能耗更低之外，這種硅光子芯片還具有隱私方面的優(yōu)勢(shì)：由于許多計(jì)算可以同時(shí)進(jìn)行，因此無(wú)需在計(jì)算機(jī)的工作內(nèi)存中存儲(chǔ)敏感信息，這使得未來(lái)采用這種技術(shù)的計(jì)算機(jī)幾乎無(wú)法被黑客攻擊。

低功耗已成新型芯片必備特點(diǎn)

近年來(lái)，為應(yīng)對(duì) AI 算法的快速發(fā)展和應(yīng)用需求，學(xué)界、業(yè)界在 AI 芯片領(lǐng)域已經(jīng)取得了一些重要進(jìn)展，主要集中在提升計(jì)算性能、降低能耗、增強(qiáng)硬件智能等方面。

1. 基于 GPU 的加速器：GPU 加速器已成為 AI 計(jì)算的主流選擇之一。通過(guò)利用 GPU 的并行計(jì)算能力，可以大幅提升 AI 算法的運(yùn)行速度。近年來(lái)，為滿足人工智能應(yīng)用的需求，NVIDIA 等公司不斷推出性能更強(qiáng)大、功耗更低的 GPU 產(chǎn)品。

2. ASIC 芯片的發(fā)展：ASIC（專用集成電路）芯片是針對(duì)特定應(yīng)用場(chǎng)景進(jìn)行定制設(shè)計(jì)的芯片，具有性能高、功耗低的特點(diǎn)。近年來(lái)，一些公司推出了針對(duì) AI 算法優(yōu)化的 ASIC 芯片，如 Google 的 TPU（Tensor Processing Unit）和 NVIDIA 的 Tesla 系列。這些芯片在深度學(xué)習(xí)算法的訓(xùn)練和推理等方面表現(xiàn)出色，在性能上取得了顯著的提升。

3. FPGA 芯片的應(yīng)用：FPGA（現(xiàn)場(chǎng)可編程門陣列）芯片具有靈活性高、功耗低的特點(diǎn)，適合用于加速 AI 算法的運(yùn)行。一些研究團(tuán)隊(duì)正在探索如何利用 FPGA 芯片實(shí)現(xiàn)深度學(xué)習(xí)算法的加速。通過(guò)對(duì)算法進(jìn)行硬件優(yōu)化和并行化設(shè)計(jì)，可以在 FPGA 芯片上實(shí)現(xiàn)較高的性能和能效比。

4. 神經(jīng)形態(tài)芯片的研究：神經(jīng)形態(tài)芯片是一種模仿生物神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和工作原理的新型芯片。它具有并行性強(qiáng)、能耗低的特點(diǎn)，適合用于實(shí)現(xiàn)智能感知和學(xué)習(xí)功能。一些研究機(jī)構(gòu)和公司正在開(kāi)展神經(jīng)形態(tài)芯片的研究，試圖實(shí)現(xiàn)更加智能化的 AI 計(jì)算設(shè)備。

然而，新型芯片從誕生到成熟應(yīng)用，還有很長(zhǎng)的路要走。

未來(lái)，新型芯片仍需要進(jìn)一步提升其計(jì)算性能和能耗效率，實(shí)現(xiàn)更高效的數(shù)據(jù)處理和智能計(jì)算。此外，加強(qiáng)新型芯片與現(xiàn)有計(jì)算平臺(tái)和設(shè)備的兼容性，實(shí)現(xiàn)系統(tǒng)級(jí)集成。而且，新型芯片也需要與各個(gè)領(lǐng)域融合，包括自動(dòng)駕駛、醫(yī)療健康、智能制造等。