国产成人无线视频不卡二_区二区三区在线 | 欧洲_国产精品午夜福利在线观看地址_亚洲AV激情无码专区在线播放

歡迎訪問(wèn)深圳市中小企業(yè)公共服務(wù)平臺(tái)電子信息窗口

芯來(lái)科技:以 RISC-V V 擴(kuò)展加速 AI 推理,開(kāi)啟嵌入式智能新紀(jì)元

2025-07-18 來(lái)源:愛(ài)集微 原創(chuàng)文章
100

關(guān)鍵詞: 芯來(lái)科技 RISC-V V擴(kuò)展 嵌入式AI Nuclei AI Library BF16擴(kuò)展

從智能家居到智能交通,從醫(yī)療診斷到工業(yè)自動(dòng)化,AI 的應(yīng)用場(chǎng)景不斷拓展,其對(duì)算力的需求也日益攀升。然而,在資源受限的嵌入式設(shè)備上實(shí)現(xiàn)高效的 AI 推理,一直是困擾業(yè)界的難題。

7月18日,在第五屆RISC-V中國(guó)峰會(huì)的AI分論壇上,芯來(lái)科技嵌入式軟件工程師舒卓發(fā)表演講時(shí)介紹了芯來(lái)科技是如何通過(guò) RISC-V V擴(kuò)展技術(shù),為這一難題提供了一套創(chuàng)新且高效的解決方案,為嵌入式 AI 的發(fā)展注入了強(qiáng)勁動(dòng)力。

背景:嵌入式 AI 的挑戰(zhàn)與機(jī)遇

隨著 AI 技術(shù)的飛速發(fā)展,其應(yīng)用范圍逐漸從云端服務(wù)器向邊緣設(shè)備和嵌入式系統(tǒng)延伸。嵌入式設(shè)備以其低功耗、高性能、高集成度等特性,在物聯(lián)網(wǎng)、智能穿戴、工業(yè)控制等領(lǐng)域展現(xiàn)出巨大的應(yīng)用潛力。然而,嵌入式設(shè)備的硬件資源相對(duì)有限,其算力難以滿足復(fù)雜 AI 模型的直接運(yùn)行需求。因此,嵌入式 AI 通常采用“訓(xùn)練 - 推理分離”的模式,即在服務(wù)器上完成模型的訓(xùn)練,然后將訓(xùn)練好的模型部署到嵌入式設(shè)備上進(jìn)行推理運(yùn)算。

舒卓指出,在硬件架構(gòu)方面,嵌入式 AI 系統(tǒng)多采用“通用 + 專用”的架構(gòu)組合。專用架構(gòu)如專用的 DSA(Domain - Specific Architecture)或 NPU(Neural Processing Unit),它們針對(duì)特定的 AI 算法進(jìn)行了優(yōu)化,能夠提供強(qiáng)大的算力支持,但靈活性較差,難以適應(yīng)算法的快速迭代。而通用架構(gòu)則以 RISC-V V 擴(kuò)展為代表,它能夠隨著算子的演進(jìn)而不斷升級(jí),為嵌入式設(shè)備提供了更為靈活的 AI 加速方案。

Nuclei AI Library:為 VPU 加速賦能

在這樣的行業(yè)背景下,芯來(lái)科技推出了 Nuclei AI Library,旨在為開(kāi)發(fā)者提供一套基于 RISC-V V 擴(kuò)展的高效 AI 算子優(yōu)化庫(kù)。Nuclei AI Library 的出現(xiàn),正是為了填補(bǔ) NPU 在某些場(chǎng)景下無(wú)法滿足需求的空白,為嵌入式設(shè)備上的 AI 推理提供更強(qiáng)大的支持。

Nuclei AI Library 對(duì)常見(jiàn)的 AI 算子進(jìn)行了深度優(yōu)化,覆蓋了 int8、int16、fp16、bf16、fp32 等多種數(shù)據(jù)格式,能夠滿足不同精度要求的 AI 應(yīng)用場(chǎng)景。無(wú)論是矩陣運(yùn)算、卷積操作,還是激活函數(shù)等,這些經(jīng)過(guò)優(yōu)化的算子都能在 RISC-V VPU(Vector Processing Unit)上實(shí)現(xiàn)高效的運(yùn)行。而且,該庫(kù)還提供了對(duì)不同運(yùn)行環(huán)境的支持,包括裸機(jī)、RTOS(Real - Time Operating System)以及 Linux 環(huán)境,極大地增強(qiáng)了其在實(shí)際應(yīng)用中的適用性。

在實(shí)際的性能測(cè)試中,Nuclei AI Library 的表現(xiàn)令人矚目。以 GEMM(General Matrix Multiply,通用矩陣乘)算子為例,這是 AI 模型中算力占比極高的一個(gè)算子。通過(guò)采用一系列優(yōu)化策略,如避免使用效率較低的 Reduction 指令、充分“榨取”已加載的數(shù)據(jù)以減少 Load 操作、盡量用滿 V 數(shù)據(jù)寄存器等,Nuclei AI Library 在 Nuclei nx900fdv 上對(duì) GEMM 算子進(jìn)行了優(yōu)化,實(shí)測(cè)結(jié)果顯示其性能提升倍數(shù)顯著,為嵌入式設(shè)備上的矩陣運(yùn)算帶來(lái)了質(zhì)的飛躍。

對(duì)于 CNN(Convolutional Neural Network,卷積神經(jīng)網(wǎng)絡(luò))中占比極高的 CON2D(二維卷積)算子,Nuclei AI Library 同樣提供了高效的優(yōu)化方案。目前常用的優(yōu)化方法有兩種:一種是使用 Im2col + GEMM,另一種是使用 Winograd + GEMM 加速小尺寸卷積核。這兩種方法的核心都是將復(fù)雜的卷積運(yùn)算轉(zhuǎn)化為矩陣乘法運(yùn)算,從而充分利用矩陣運(yùn)算的高效性。在 Nuclei nx900fdv 上的測(cè)試數(shù)據(jù)表明,經(jīng)過(guò) V 擴(kuò)展優(yōu)化后的 CON2D 算子性能得到了大幅提升,為嵌入式設(shè)備上 CNN 網(wǎng)絡(luò)的推理運(yùn)算提供了有力支持。

Nuclei BF16 擴(kuò)展:提升 AI 計(jì)算效率的利器

除了對(duì)常見(jiàn) AI 算子的優(yōu)化,芯來(lái)科技還針對(duì)當(dāng)前 AI 領(lǐng)域?qū)τ?jì)算效率和精度的雙重需求,推出了 Nuclei BF16 擴(kuò)展。BF16(Brain Floating - Point 16)是由 Google 提出的一種數(shù)值格式,它保留了與 FP32(32 位浮點(diǎn)數(shù))相同的 8 位指數(shù)寬度,從而具有與 FP32 相同的動(dòng)態(tài)范圍,但在精度上略低于 FP32。然而,在許多深度學(xué)習(xí)應(yīng)用場(chǎng)景中,這種精度的降低對(duì)最終結(jié)果的影響微乎其微,而 BF16 的位寬減半?yún)s能顯著提高內(nèi)存帶寬利用率,若再配合 SIMD(Single Instruction Multiple Data,單指令多數(shù)據(jù))指令優(yōu)化,計(jì)算效率可成倍提升。

RISC-V 官方目前定義了基本的 BF16 轉(zhuǎn)換指令和向量乘加指令(zvfbfmin 擴(kuò)展),但這種方式存在一定的局限性,即需要將 BF16 轉(zhuǎn)換為 FP32 后才能進(jìn)行其他計(jì)算,這無(wú)疑降低了計(jì)算效率和帶寬利用率。針對(duì)這一問(wèn)題,芯來(lái)科技通過(guò)硬件與工具鏈的協(xié)同優(yōu)化,提出了 Nuclei BF16 擴(kuò)展。該擴(kuò)展兼容官方 BF16 指令,自定義了 BF16 rvv intrinsic function,生成與 FP16 相同的指令,并通過(guò)設(shè)置不同的寄存器值來(lái)切換硬件行為,從而避免了不必要的轉(zhuǎn)換,充分發(fā)揮了 BF16 的算力優(yōu)勢(shì)。

Nuclei BF16 擴(kuò)展具有諸多顯著特點(diǎn)。首先,它生成的 BF16 指令與 F16 保持一致,通過(guò) CSR(Control and Status Register,控制狀態(tài)寄存器)寄存器配置來(lái)動(dòng)態(tài)決定硬件處理行為,這種靈活的配置方式使得硬件能夠根據(jù)不同的應(yīng)用場(chǎng)景靈活切換運(yùn)算模式。其次,Nuclei BF16 擴(kuò)展提供了專用 intrinsic API,完整支持 BF16 標(biāo)量和向量運(yùn)算,為開(kāi)發(fā)者提供了強(qiáng)大的工具,使其能夠充分利用 BF16 的高效計(jì)算能力。實(shí)際測(cè)試結(jié)果表明,采用 Nuclei BF16 擴(kuò)展的方案相比官方 zvfbfmin 擴(kuò)展,性能提升可達(dá) 1 倍以上,這一顯著的性能提升無(wú)疑為 AI 應(yīng)用在嵌入式設(shè)備上的高效運(yùn)行提供了有力保障。

Nuclei 矩陣擴(kuò)展:定制化指令助力性能飛躍

在 AI 應(yīng)用中,矩陣運(yùn)算是最為基礎(chǔ)且頻繁的操作之一,其性能的優(yōu)劣直接關(guān)系到整個(gè) AI 系統(tǒng)的運(yùn)行效率。舒卓表示,為了進(jìn)一步提升矩陣計(jì)算性能,芯來(lái)科技在 Nuclei GCC(GNU Compiler Collection)工具鏈中引入了定制化的 VPU 擴(kuò)展 Xxlvqmacc。該擴(kuò)展遵循 IME(Instruction - set Meta - Architecture,指令集元架構(gòu))group 規(guī)范設(shè)計(jì),實(shí)現(xiàn)了高效的整數(shù)矩陣乘加指令,并提供了相應(yīng)的 intrinsic functions,以方便開(kāi)發(fā)者在實(shí)際編程中使用。

Xxlvqmacc 擴(kuò)展支持 8 位整數(shù)輸入值擴(kuò)展至 32 位精度,這對(duì)于需要高精度計(jì)算的 AI 應(yīng)用場(chǎng)景具有重要意義。通過(guò)這種擴(kuò)展,開(kāi)發(fā)者可以在保持較低存儲(chǔ)和傳輸帶寬需求的同時(shí),獲得更高的計(jì)算精度,從而在嵌入式設(shè)備上實(shí)現(xiàn)更為復(fù)雜的 AI 算法。例如,在進(jìn)行矩陣乘法運(yùn)算時(shí),傳統(tǒng)的實(shí)現(xiàn)方式需要多層循環(huán)嵌套,逐個(gè)元素進(jìn)行計(jì)算,這種方式在嵌入式設(shè)備上效率較低。而借助 Xxlvqmacc 擴(kuò)展,開(kāi)發(fā)者可以利用向量化的指令,一次性處理多個(gè)數(shù)據(jù),大大減少了循環(huán)迭代次數(shù),顯著提高了運(yùn)算速度。

結(jié)語(yǔ):引領(lǐng)嵌入式 AI 發(fā)展潮流

芯來(lái)科技通過(guò) RISC-V V 擴(kuò)展技術(shù)在 AI 推理領(lǐng)域的創(chuàng)新應(yīng)用,成功地為嵌入式設(shè)備上的 AI 運(yùn)算帶來(lái)了前所未有的性能提升。Nuclei AI Library 為開(kāi)發(fā)者提供了豐富的優(yōu)化算子,涵蓋了多種數(shù)據(jù)格式和運(yùn)行環(huán)境,極大地簡(jiǎn)化了開(kāi)發(fā)流程,降低了開(kāi)發(fā)門檻;Nuclei BF16 擴(kuò)展則針對(duì) AI 領(lǐng)域?qū)τ?jì)算效率和精度的特殊需求,提出了高效的解決方案,顯著提高了 BF16 格式的計(jì)算性能;而 Nuclei 矩陣擴(kuò)展更是從底層硬件指令層面出發(fā),為矩陣運(yùn)算這一 AI 核心操作提供了強(qiáng)大的支持。

在未來(lái)的智能時(shí)代,隨著 AI 技術(shù)的不斷深化和應(yīng)用場(chǎng)景的持續(xù)拓展,嵌入式設(shè)備上的 AI 推理將扮演越來(lái)越重要的角色。芯來(lái)科技憑借其在 RISC-V V 擴(kuò)展領(lǐng)域的深厚技術(shù)積累和持續(xù)創(chuàng)新能力,將繼續(xù)引領(lǐng)嵌入式 AI 的發(fā)展潮流,助力各行業(yè)實(shí)現(xiàn)智能化升級(jí),為人們的生活和工作帶來(lái)更多的便利和可能性。




国自产偷精品不卡在线| 久久夜色撩人精品国产小说| 国产亚洲一区二区在线观看| 国产内射老熟女aaaa| 性高朝久久久久久久| 欧美性色黄大片手机版| 极品老师腿张开粉嫩小泬| 日韩高清国产一区在线| 国产一区二区三区av在线无码观看| 亚洲欧美日韩成人高清在线一区| 亚洲成在人线视av| 国产女人被狂躁到高潮小说| 野花社区www高清视频| 一本无码av中文出轨人妻| 五月丁香六月综合缴清无码 | 国产精品久久久久久久久软件| 中国猛少妇色xxxxx| 激情偷乱人成视频在线观看| 国产精品自在拍在线拍| 亚洲高清乱码午夜电影网| 综合图区亚洲另类偷窥| 在线观看黄片| 无遮挡又黄又刺激的视频| 在线观看国产精品日韩av| 色婷婷综合久久久久中文| 337p西西人体大胆瓣开下部| 国产av无码专区亚洲av蜜芽| 亚洲亚洲人成综合丝袜图片| 亚洲av日韩精品久久久久久a| 亚洲精品久久久久久久蜜桃臀 | 丰满少妇人妻久久久久久| 无人区乱码一区二区三区| 麻豆国产97在线 | 欧美| 中文国产成人精品久久app| 国产成人av在线影院| 粗大挺进尤物人妻中文字幕 | 乱码1乱码2美美哒| 日日噜噜夜夜狠狠va视频v| 丰满人妻一区二区三区视频| 无码少妇一区二区| 亚洲av熟妇在线观看|