芯來(lái)科技：以 RISC-V V 擴(kuò)展加速 AI 推理，開(kāi)啟嵌入式智能新紀(jì)元

2025-07-18 來(lái)源：愛(ài)集微原創(chuàng)文章

100

關(guān)鍵詞：芯來(lái)科技 RISC-V V擴(kuò)展嵌入式AI Nuclei AI Library BF16擴(kuò)展

從智能家居到智能交通，從醫(yī)療診斷到工業(yè)自動(dòng)化，AI 的應(yīng)用場(chǎng)景不斷拓展，其對(duì)算力的需求也日益攀升。然而，在資源受限的嵌入式設(shè)備上實(shí)現(xiàn)高效的 AI 推理，一直是困擾業(yè)界的難題。

7月18日，在第五屆RISC-V中國(guó)峰會(huì)的AI分論壇上，芯來(lái)科技嵌入式軟件工程師舒卓發(fā)表演講時(shí)介紹了芯來(lái)科技是如何通過(guò) RISC-V V擴(kuò)展技術(shù)，為這一難題提供了一套創(chuàng)新且高效的解決方案，為嵌入式 AI 的發(fā)展注入了強(qiáng)勁動(dòng)力。

背景：嵌入式 AI 的挑戰(zhàn)與機(jī)遇

隨著 AI 技術(shù)的飛速發(fā)展，其應(yīng)用范圍逐漸從云端服務(wù)器向邊緣設(shè)備和嵌入式系統(tǒng)延伸。嵌入式設(shè)備以其低功耗、高性能、高集成度等特性，在物聯(lián)網(wǎng)、智能穿戴、工業(yè)控制等領(lǐng)域展現(xiàn)出巨大的應(yīng)用潛力。然而，嵌入式設(shè)備的硬件資源相對(duì)有限，其算力難以滿足復(fù)雜 AI 模型的直接運(yùn)行需求。因此，嵌入式 AI 通常采用“訓(xùn)練 - 推理分離”的模式，即在服務(wù)器上完成模型的訓(xùn)練，然后將訓(xùn)練好的模型部署到嵌入式設(shè)備上進(jìn)行推理運(yùn)算。

舒卓指出，在硬件架構(gòu)方面，嵌入式 AI 系統(tǒng)多采用“通用 + 專用”的架構(gòu)組合。專用架構(gòu)如專用的 DSA（Domain - Specific Architecture）或 NPU（Neural Processing Unit），它們針對(duì)特定的 AI 算法進(jìn)行了優(yōu)化，能夠提供強(qiáng)大的算力支持，但靈活性較差，難以適應(yīng)算法的快速迭代。而通用架構(gòu)則以 RISC-V V 擴(kuò)展為代表，它能夠隨著算子的演進(jìn)而不斷升級(jí)，為嵌入式設(shè)備提供了更為靈活的 AI 加速方案。

Nuclei AI Library：為 VPU 加速賦能

在這樣的行業(yè)背景下，芯來(lái)科技推出了 Nuclei AI Library，旨在為開(kāi)發(fā)者提供一套基于 RISC-V V 擴(kuò)展的高效 AI 算子優(yōu)化庫(kù)。Nuclei AI Library 的出現(xiàn)，正是為了填補(bǔ) NPU 在某些場(chǎng)景下無(wú)法滿足需求的空白，為嵌入式設(shè)備上的 AI 推理提供更強(qiáng)大的支持。

Nuclei AI Library 對(duì)常見(jiàn)的 AI 算子進(jìn)行了深度優(yōu)化，覆蓋了 int8、int16、fp16、bf16、fp32 等多種數(shù)據(jù)格式，能夠滿足不同精度要求的 AI 應(yīng)用場(chǎng)景。無(wú)論是矩陣運(yùn)算、卷積操作，還是激活函數(shù)等，這些經(jīng)過(guò)優(yōu)化的算子都能在 RISC-V VPU（Vector Processing Unit）上實(shí)現(xiàn)高效的運(yùn)行。而且，該庫(kù)還提供了對(duì)不同運(yùn)行環(huán)境的支持，包括裸機(jī)、RTOS（Real - Time Operating System）以及 Linux 環(huán)境，極大地增強(qiáng)了其在實(shí)際應(yīng)用中的適用性。

在實(shí)際的性能測(cè)試中，Nuclei AI Library 的表現(xiàn)令人矚目。以 GEMM（General Matrix Multiply，通用矩陣乘）算子為例，這是 AI 模型中算力占比極高的一個(gè)算子。通過(guò)采用一系列優(yōu)化策略，如避免使用效率較低的 Reduction 指令、充分“榨取”已加載的數(shù)據(jù)以減少 Load 操作、盡量用滿 V 數(shù)據(jù)寄存器等，Nuclei AI Library 在 Nuclei nx900fdv 上對(duì) GEMM 算子進(jìn)行了優(yōu)化，實(shí)測(cè)結(jié)果顯示其性能提升倍數(shù)顯著，為嵌入式設(shè)備上的矩陣運(yùn)算帶來(lái)了質(zhì)的飛躍。

對(duì)于 CNN（Convolutional Neural Network，卷積神經(jīng)網(wǎng)絡(luò)）中占比極高的 CON2D（二維卷積）算子，Nuclei AI Library 同樣提供了高效的優(yōu)化方案。目前常用的優(yōu)化方法有兩種：一種是使用 Im2col + GEMM，另一種是使用 Winograd + GEMM 加速小尺寸卷積核。這兩種方法的核心都是將復(fù)雜的卷積運(yùn)算轉(zhuǎn)化為矩陣乘法運(yùn)算，從而充分利用矩陣運(yùn)算的高效性。在 Nuclei nx900fdv 上的測(cè)試數(shù)據(jù)表明，經(jīng)過(guò) V 擴(kuò)展優(yōu)化后的 CON2D 算子性能得到了大幅提升，為嵌入式設(shè)備上 CNN 網(wǎng)絡(luò)的推理運(yùn)算提供了有力支持。

Nuclei BF16 擴(kuò)展：提升 AI 計(jì)算效率的利器

除了對(duì)常見(jiàn) AI 算子的優(yōu)化，芯來(lái)科技還針對(duì)當(dāng)前 AI 領(lǐng)域?qū)τ?jì)算效率和精度的雙重需求，推出了 Nuclei BF16 擴(kuò)展。BF16（Brain Floating - Point 16）是由 Google 提出的一種數(shù)值格式，它保留了與 FP32（32 位浮點(diǎn)數(shù)）相同的 8 位指數(shù)寬度，從而具有與 FP32 相同的動(dòng)態(tài)范圍，但在精度上略低于 FP32。然而，在許多深度學(xué)習(xí)應(yīng)用場(chǎng)景中，這種精度的降低對(duì)最終結(jié)果的影響微乎其微，而 BF16 的位寬減半?yún)s能顯著提高內(nèi)存帶寬利用率，若再配合 SIMD（Single Instruction Multiple Data，單指令多數(shù)據(jù)）指令優(yōu)化，計(jì)算效率可成倍提升。

RISC-V 官方目前定義了基本的 BF16 轉(zhuǎn)換指令和向量乘加指令（zvfbfmin 擴(kuò)展），但這種方式存在一定的局限性，即需要將 BF16 轉(zhuǎn)換為 FP32 后才能進(jìn)行其他計(jì)算，這無(wú)疑降低了計(jì)算效率和帶寬利用率。針對(duì)這一問(wèn)題，芯來(lái)科技通過(guò)硬件與工具鏈的協(xié)同優(yōu)化，提出了 Nuclei BF16 擴(kuò)展。該擴(kuò)展兼容官方 BF16 指令，自定義了 BF16 rvv intrinsic function，生成與 FP16 相同的指令，并通過(guò)設(shè)置不同的寄存器值來(lái)切換硬件行為，從而避免了不必要的轉(zhuǎn)換，充分發(fā)揮了 BF16 的算力優(yōu)勢(shì)。

Nuclei BF16 擴(kuò)展具有諸多顯著特點(diǎn)。首先，它生成的 BF16 指令與 F16 保持一致，通過(guò) CSR（Control and Status Register，控制狀態(tài)寄存器）寄存器配置來(lái)動(dòng)態(tài)決定硬件處理行為，這種靈活的配置方式使得硬件能夠根據(jù)不同的應(yīng)用場(chǎng)景靈活切換運(yùn)算模式。其次，Nuclei BF16 擴(kuò)展提供了專用 intrinsic API，完整支持 BF16 標(biāo)量和向量運(yùn)算，為開(kāi)發(fā)者提供了強(qiáng)大的工具，使其能夠充分利用 BF16 的高效計(jì)算能力。實(shí)際測(cè)試結(jié)果表明，采用 Nuclei BF16 擴(kuò)展的方案相比官方 zvfbfmin 擴(kuò)展，性能提升可達(dá) 1 倍以上，這一顯著的性能提升無(wú)疑為 AI 應(yīng)用在嵌入式設(shè)備上的高效運(yùn)行提供了有力保障。

Nuclei 矩陣擴(kuò)展：定制化指令助力性能飛躍

在 AI 應(yīng)用中，矩陣運(yùn)算是最為基礎(chǔ)且頻繁的操作之一，其性能的優(yōu)劣直接關(guān)系到整個(gè) AI 系統(tǒng)的運(yùn)行效率。舒卓表示，為了進(jìn)一步提升矩陣計(jì)算性能，芯來(lái)科技在 Nuclei GCC（GNU Compiler Collection）工具鏈中引入了定制化的 VPU 擴(kuò)展 Xxlvqmacc。該擴(kuò)展遵循 IME（Instruction - set Meta - Architecture，指令集元架構(gòu)）group 規(guī)范設(shè)計(jì)，實(shí)現(xiàn)了高效的整數(shù)矩陣乘加指令，并提供了相應(yīng)的 intrinsic functions，以方便開(kāi)發(fā)者在實(shí)際編程中使用。

Xxlvqmacc 擴(kuò)展支持 8 位整數(shù)輸入值擴(kuò)展至 32 位精度，這對(duì)于需要高精度計(jì)算的 AI 應(yīng)用場(chǎng)景具有重要意義。通過(guò)這種擴(kuò)展，開(kāi)發(fā)者可以在保持較低存儲(chǔ)和傳輸帶寬需求的同時(shí)，獲得更高的計(jì)算精度，從而在嵌入式設(shè)備上實(shí)現(xiàn)更為復(fù)雜的 AI 算法。例如，在進(jìn)行矩陣乘法運(yùn)算時(shí)，傳統(tǒng)的實(shí)現(xiàn)方式需要多層循環(huán)嵌套，逐個(gè)元素進(jìn)行計(jì)算，這種方式在嵌入式設(shè)備上效率較低。而借助 Xxlvqmacc 擴(kuò)展，開(kāi)發(fā)者可以利用向量化的指令，一次性處理多個(gè)數(shù)據(jù)，大大減少了循環(huán)迭代次數(shù)，顯著提高了運(yùn)算速度。

結(jié)語(yǔ)：引領(lǐng)嵌入式 AI 發(fā)展潮流

芯來(lái)科技通過(guò) RISC-V V 擴(kuò)展技術(shù)在 AI 推理領(lǐng)域的創(chuàng)新應(yīng)用，成功地為嵌入式設(shè)備上的 AI 運(yùn)算帶來(lái)了前所未有的性能提升。Nuclei AI Library 為開(kāi)發(fā)者提供了豐富的優(yōu)化算子，涵蓋了多種數(shù)據(jù)格式和運(yùn)行環(huán)境，極大地簡(jiǎn)化了開(kāi)發(fā)流程，降低了開(kāi)發(fā)門檻；Nuclei BF16 擴(kuò)展則針對(duì) AI 領(lǐng)域?qū)τ?jì)算效率和精度的特殊需求，提出了高效的解決方案，顯著提高了 BF16 格式的計(jì)算性能；而 Nuclei 矩陣擴(kuò)展更是從底層硬件指令層面出發(fā)，為矩陣運(yùn)算這一 AI 核心操作提供了強(qiáng)大的支持。

在未來(lái)的智能時(shí)代，隨著 AI 技術(shù)的不斷深化和應(yīng)用場(chǎng)景的持續(xù)拓展，嵌入式設(shè)備上的 AI 推理將扮演越來(lái)越重要的角色。芯來(lái)科技憑借其在 RISC-V V 擴(kuò)展領(lǐng)域的深厚技術(shù)積累和持續(xù)創(chuàng)新能力，將繼續(xù)引領(lǐng)嵌入式 AI 的發(fā)展潮流，助力各行業(yè)實(shí)現(xiàn)智能化升級(jí)，為人們的生活和工作帶來(lái)更多的便利和可能性。

相關(guān)文章

行業(yè)動(dòng)態(tài)

商務(wù)部新聞發(fā)言人就美批準(zhǔn)對(duì)華銷售英偉達(dá)H20芯片有關(guān)情況答記者問(wèn)：中美之間合作共贏才是正道，打壓遏制沒(méi)有出路

黃仁勛：人工智能下個(gè)浪潮是Physic AI；全國(guó)產(chǎn)化AI一體機(jī)在深圳發(fā)布丨數(shù)智早參

華為攜手云南交投正式發(fā)布“綠美通道·交通大模型”

熱讀文章

苗圩出席統(tǒng)籌推進(jìn)疫情防控和產(chǎn)業(yè)轉(zhuǎn)型升級(jí)促進(jìn)制造業(yè)通信業(yè)穩(wěn)定發(fā)展發(fā)布會(huì)

一圖讀懂2020年《政府工作報(bào)告》

工業(yè)富聯(lián)：擬7763萬(wàn)美元收購(gòu)鴻海精密美國(guó)子公司相關(guān)資產(chǎn)

国产成人无线视频不卡二_区二区三区在线 | 欧洲_国产精品午夜福利在线观看地址_亚洲AV激情无码专区在线播放

芯來(lái)科技：以 RISC-V V 擴(kuò)展加速 AI 推理，開(kāi)啟嵌入式智能新紀(jì)元

芯來(lái)科技：以 RISC-V V 擴(kuò)展加速 AI 推理，開(kāi)啟嵌入式智能新紀(jì)元