國產推理芯片上“硬菜”!大模型和邊緣計算都不在話下
國產大模型芯片,又有了好消息。
作為“中國科技第一展”,深圳高交會正在如火如荼的舉辦,4295家企業(yè)展出了琳瑯滿目的高精尖科技成果,歷來在高交會發(fā)布重磅產品的AI企業(yè)云天勵飛,一如既往上了盤“硬菜”——國產Chiplet大模型推理芯片DeepEdge10。
這是云天勵飛迄今算力最強的旗艦AI芯片SoC,內置自研新一代神經網(wǎng)絡處理器NNP400T,通過D2D高速互聯(lián)Chiplet技術、C2CMesh互聯(lián)架構實現(xiàn)算力擴展,能夠支持千億級參數(shù)大模型,落地于邊緣設備和邊緣服務器。
而“國產”,當屬這顆芯片最吸睛的標簽。
制程工藝是國產,基板是國產,D2D Chiplet先進封裝架構是國產,RISC-V CPU IP、GPU IP是國產,云天勵飛自研的NNP更是國產。
波譎云詭的國際環(huán)境中,中國企業(yè)采用海外先進芯片技術的可能性不斷受限。今天,在國產供應鏈的襄助下,云天勵飛證明了通過多重創(chuàng)新技術的組合拳,自主可控的AI芯片能夠滿足高算力、大內存的大模型推理需求。
大模型創(chuàng)新爆發(fā)時代,
需要什么樣的邊緣推理芯片?
大模型正在顛覆生產力,海量數(shù)據(jù)和參數(shù)的運算需求、日趨豐富的應用場景帶來了全新的計算泛式和計算要求,給AI芯片提出新的挑戰(zhàn)。
一方面,多模態(tài)大模型成為大勢所趨,帶動推理算力需求激增;另一方面,OpenAI、微軟等接連開放自定義GPT能力,掀起新一股生成式AI應用模型創(chuàng)新熱潮,更加分散泛化的多元場景,需要大量邊緣推理算力的支撐。
據(jù)云天勵飛副總裁、芯片產品線總經理李愛軍回憶,在推進芯片落地的過程中,云天勵飛深刻體會到邊緣計算場景存在算力碎片化、算法長尾化、產品非標化、規(guī)模碎片化的痛點。
追求單一場景極致PPA(性能、功耗、面積)的傳統(tǒng)芯片方式,已經難以適應邊緣計算場景下AI落地的需求。大模型的出現(xiàn),為行業(yè)提供了算法層面的解決之道,因而日漸成為大勢所趨。
那么讓大模型在邊緣計算場景實際落地,需要怎樣的AI推理芯片?
一些方向已經是業(yè)界共識:既要有更高算力,又要增加更多的內存容量、更大的內存帶寬,這樣才能存得下、搬得快足夠多的數(shù)據(jù)。同時,邊緣計算對低功耗、低成本的要求更為苛刻。
除了支持大模型等AI計算任務,AI邊緣推理芯片還承擔了“落地應用最后一公里”的職責,需要具備較強的通用算力。
針對這些需求,云天勵飛自主研發(fā)并推出了面向邊緣計算全場景、基于國產工藝的大模型推理芯片平臺——DeepEdge10。
布局AI應用落地“最后一公里”
人工智能芯片從功能上可以分為訓練芯片和推理芯片,前者注重絕對的計算能力,而后者更注重綜合指標,是實現(xiàn)AI應用落地終端的“最后一公里”。
“訓練不是目的,生產大模型不是目的,千行百業(yè)的落地和應用才是最終的目的。”陳寧表示,不論是機器人、無人駕駛汽車智能傳感,還是各類智能硬件,甚至腦機接口芯片,都需要大模型的推理芯片,當前國內這個領域還處于“百家爭鳴”階段,云天勵飛聚焦在邊緣推理計算發(fā)力。
本次云天勵飛推出的DeepEdge10,就定位于邊緣計算全場景應用,內置公司最新的第四代神經網(wǎng)絡處理器,打造了Edge10C、Edge10 標準版和Edge10Max 三款系列芯片;出貨形態(tài)包括芯片、板卡、盒子、加速卡、推理服務器等,可廣泛應用于AIoT邊緣視頻、移動機器人等場景。
云天勵飛副總裁、芯片產品線總經理李愛軍表示,由于邊緣計算的場景呈現(xiàn)出算力碎片化、算法長尾化、產品非標化、規(guī)模碎片化的特征,傳統(tǒng)的算法開發(fā)和芯片都難以適應新一代人工智能邊緣計算場景的產品化需求。大模型的出現(xiàn),為行業(yè)提供了算法層面的解決之道;但大模型在邊緣計算場景要面向實戰(zhàn)發(fā)揮作用,則需要AI大模型推理芯片的支持。
簡而言之,AI邊緣推理芯片不僅要支持大模型等AI計算任務,還需要具備較強的通用算力。其中,Transformer作為語言視覺多模態(tài)大模型的最核心架構,云天勵飛從2015年開始研發(fā)神經網(wǎng)絡處理器,在2021年指令集已經實現(xiàn)兼容基于Transformer 架構的新型計算范式。
依托 Deep Edge10創(chuàng)新的 D2D chiplet架構打造的X5000推理卡,已適配并可承載SAM CV大模型、Llama2等百億級大模型運算。
構建國產推理芯片生態(tài)
目前,云天勵飛已向國內頭部的AIoT芯片設計廠商、智慧汽車芯片設計廠商、服務機器人廠商、國家重點實驗室等提供神經網(wǎng)絡處理器的IP授權。而邊緣計算市場將迎來高速發(fā)展。根據(jù)IDC預測,到2023年底,全球的邊緣計算市場將達到2000億美金的規(guī)模;預計到2026年,邊緣計算市場將突破3000億美金。
為了布局龐大的邊緣計算市場,就需要構建自主可控的推理芯片生態(tài)。
作為云天勵飛AI芯片重要技術特點,DeepEdge10采用了 D2D Chiplet技術和C2C Mesh擴展架構,可實現(xiàn)算力的靈活擴展,可支持千億大模型,相較總體性能要比上一代1000系列的芯片提升,整體性能提升20倍以上超過20倍。
陳寧介紹,通常百億級、千億級的大模型需要極強的計算能力和超低功耗、超低成本,對工藝需求提升到7納米、5納米甚至2納米;結合國產生產工藝現(xiàn)狀,云天勵飛與合作伙伴從三年前就開始聯(lián)合技術攻關,定制系列IP,實現(xiàn)在14納米節(jié)點上生產多顆不同計算規(guī)格的AI的推理芯片,運營大模型的功能。
在軟件棧、工具鏈方面,云天勵飛打造了開放的算法應用平臺,提供超過100多種的算法。通過自研芯片,公司沉淀了 “算法芯片化”的核心能力,完成了3代指令集架構、4代神經網(wǎng)絡處理器架構的研發(fā),目前自研神經網(wǎng)絡處理器已經獲得國內頂尖的芯片設計公司采用,生態(tài)合作伙伴擴大到近30家,芯片也大規(guī)模應用到安防模塊等領域。
“我們將立足國產工藝,打造自主可控的AI芯片,雖然這條路非常艱難,但是我們還會堅定不移地走下去?!崩類圮姳硎?。
國產最強算力模型亮相
11月16日,百川智能與鵬城實驗室宣布攜手探索大模型訓練和應用,雙方展示了合作研發(fā)的基于國產算力的128K長窗口大模型“鵬城-百川·腦海33B”,該模型基于“鵬城云腦”國產算力平臺訓練,未來可升級至192K,是基于國產算力訓練的最長上下文窗口。
眾所周知,訓練大模型需要海量的算力,并且大模型參數(shù)數(shù)量的增長與算力的平方成正比。大模型性能的競爭,一定程度上是算力的比拼。在復雜多變的國際環(huán)境下,國內算力供給與需求之間的“鴻溝”持續(xù)擴大,國產化算力已經成為國內大模型企業(yè)的必要選擇。雖然國內諸多企業(yè)在通用AI芯片方面早有布局,在芯片量產、生態(tài)構建、應用拓展領域也取得了不錯進展,但基于國產算力訓練大模型,仍面臨著生態(tài)建設、成本控制、能效比優(yōu)化等阻礙。因此算力完全自主,仍需要芯片廠商、大模型企業(yè)、學術科研機構等多方共同努力。
據(jù)了解,鵬城實驗室是網(wǎng)絡通信領域新型科研機構,作為國家戰(zhàn)略科技力量的一部分,鵬城實驗室在國產算力大模型研發(fā)和應用等方面一直處于國內領先位置。此次其與百川智能合作研發(fā)“鵬城-百川·腦海33B”長窗口大模型,是國產算力大模型技術創(chuàng)新和落地的一次突破。
上下文窗口長度對模型理解和生成與特定上下文相關的文本至關重要,是大模型的核心技術之一。通常而言,更長的上下文窗口可以提供更豐富的語義信息、消除歧義,能夠讓模型生成的內容更準確、更流暢。
為了更好地提升“鵬城-百川·腦海33B”上下文窗口長度和模型整體性能,研發(fā)人員對模型進行了全流程優(yōu)化。在數(shù)據(jù)集構建方面,采用精細的數(shù)據(jù)構造,實現(xiàn)了段落、句子粒度的自動化數(shù)據(jù)過濾、選擇、配比,提升了數(shù)據(jù)質量;在訓練架構上,通過NormHead、max-Z-Loss、dynamic-LR等自研或業(yè)界領先的模型訓練優(yōu)化技術,對Transformer模塊進行深度優(yōu)化,確保模型穩(wěn)定的同時,全面提升了模型優(yōu)化效率和最終效果;此外,還在全生命周期的模型工具集中,通過與北京大學王亦洲、楊耀東老師團隊的合作,首創(chuàng)了帶安全約束的RLHF對齊技術,有效提升模型內容生成質量和安全性。
