阿里云:英偉達(dá)GPU用量削減82%
關(guān)鍵詞: 阿里云 Aegaeon 計(jì)算池化解決方案 GPU資源浪費(fèi) 資源利用率
隨著AI大模型技術(shù)的快速發(fā)展,云服務(wù)商在提供AI模型服務(wù)時(shí)面臨著嚴(yán)峻的資源效率挑戰(zhàn)。平臺(tái)需同時(shí)托管數(shù)千個(gè)AI模型以應(yīng)對(duì)海量并發(fā)API調(diào)用,但用戶(hù)請(qǐng)求往往高度集中在少數(shù)熱門(mén)模型上,導(dǎo)致大量“長(zhǎng)尾”模型獨(dú)占GPU資源,造成嚴(yán)重浪費(fèi)。數(shù)據(jù)顯示,在阿里云模型市場(chǎng)中,曾有17.7%的GPU算力僅用于處理1.35%的請(qǐng)求,資源閑置現(xiàn)象觸目驚心。

近日,阿里云提出的創(chuàng)新計(jì)算池化解決方案「Aegaeon」成功入選全球頂級(jí)學(xué)術(shù)會(huì)議——操作系統(tǒng)原理研討會(huì)(SOSP)2025,成為業(yè)界關(guān)注的焦點(diǎn)。該方案通過(guò)突破性的GPU資源池化技術(shù),有效解決了AI模型服務(wù)中普遍存在的GPU資源浪費(fèi)問(wèn)題,顯著提升了資源利用率,為AI產(chǎn)業(yè)的高效發(fā)展提供了新思路。
Beta測(cè)試成效顯著,GPU用量削減82%
該系統(tǒng)允許單個(gè)GPU動(dòng)態(tài)服務(wù)于多個(gè)不同的AI模型,徹底打破了以往“一個(gè)模型綁定一個(gè)GPU”的低效模式。核心創(chuàng)新點(diǎn)在于Token級(jí)調(diào)度機(jī)制,能夠在每次生成下一個(gè)token后動(dòng)態(tài)決定是否切換模型,實(shí)現(xiàn)精細(xì)化管理。同時(shí),通過(guò)組件復(fù)用、顯存精細(xì)化管理和KV緩存同步優(yōu)化等全棧技術(shù),將模型切換開(kāi)銷(xiāo)降低97%,確保了token級(jí)調(diào)度的實(shí)時(shí)性,可支持亞秒級(jí)的模型切換響應(yīng)。

在阿里云模型市場(chǎng)為期超三個(gè)月的Beta測(cè)試中,「Aegaeon」系統(tǒng)展現(xiàn)了卓越的效能。測(cè)試數(shù)據(jù)顯示,服務(wù)數(shù)十個(gè)參數(shù)量高達(dá)720億的大模型時(shí),所需的英偉達(dá)H20 GPU數(shù)量從1192個(gè)成功減少至213個(gè),削減比例高達(dá)82%。

這意味著僅用213張卡就完成了原本需要1192張卡才能完成的工作,極大地提高了資源利用率,降低了硬件采購(gòu)成本。對(duì)于動(dòng)輒使用成千上萬(wàn)張GPU的大型模型服務(wù)商而言,這一成果無(wú)疑具有里程碑式的意義。
入選SOSP 2025
SOSP由ACM SIGOPS主辦,作為計(jì)算機(jī)操作系統(tǒng)領(lǐng)域的頂尖會(huì)議,被譽(yù)為該領(lǐng)域的“奧斯卡”,其錄取率控制極為嚴(yán)格,平均每年收錄的論文數(shù)量?jī)H有數(shù)十篇?!窤egaeon」系統(tǒng)研究成果能夠成功入選,不僅代表了阿里云在操作系統(tǒng)和軟件領(lǐng)域的創(chuàng)新實(shí)力,更為全球AI產(chǎn)業(yè)提供了資源優(yōu)化的全新思路。該方案的核心技術(shù)已應(yīng)用于阿里云百煉平臺(tái),為行業(yè)樹(shù)立了新的標(biāo)桿。
這項(xiàng)由北京大學(xué)與阿里云合作的研究成果,被認(rèn)為是“首個(gè)揭示并解決市場(chǎng)上并發(fā)大語(yǔ)言模型服務(wù)存在過(guò)高成本”的公開(kāi)工作,為行業(yè)提供了全新的優(yōu)化思路。
值得一提的是,阿里云首席技術(shù)官周靖人也是該論文的作者之一。周靖人是國(guó)際電氣與電子工程師協(xié)會(huì)會(huì)士(IEEE Fellow),國(guó)際計(jì)算機(jī)協(xié)會(huì)會(huì)士(ACM Fellow),阿里巴巴集團(tuán)副總裁,阿里云智能 CTO、達(dá)摩院副院長(zhǎng)。
周靖人指出,未來(lái)AI的發(fā)展將不僅依賴(lài)于硬件算力的單純?cè)鲩L(zhǎng),更需要通過(guò)系統(tǒng)級(jí)的軟件創(chuàng)新來(lái)深度挖掘現(xiàn)有硬件的潛力。「Aegaeon」系統(tǒng)的成功實(shí)踐,正是這一理念的有力印證。隨著AI技術(shù)的不斷演進(jìn),阿里云將持續(xù)加大在全棧AI體系上的投入,推動(dòng)超級(jí)人工智能時(shí)代的到來(lái)。
責(zé)編:Luffy