關(guān)于抄襲，華為最新回應(yīng)

2025-07-08 來(lái)源：國(guó)際電子商情綜合報(bào)道原創(chuàng)文章

105

關(guān)鍵詞：華為盤古大模型，昇騰生態(tài)，AI 抄襲爭(zhēng)議，知識(shí)產(chǎn)權(quán)保護(hù)，模型評(píng)估監(jiān)管

6月30日，華為高調(diào)宣布開(kāi)源其盤古大模型核心組件(Pangu Pro MoE)，這一舉措被視為構(gòu)建昇騰生態(tài)的關(guān)鍵一步。然而，僅僅四天后，一場(chǎng)突如其來(lái)的爭(zhēng)議將華為推上了輿論的風(fēng)口浪尖。

2025年6月30日，華為高調(diào)宣布開(kāi)源其盤古大模型核心組件(Pangu Pro MoE)，包括70億參數(shù)稠密模型和720億參數(shù)的混合專家模型，這一舉措被視為構(gòu)建昇騰生態(tài)的關(guān)鍵一步。然而，僅僅四天后，一場(chǎng)突如其來(lái)的爭(zhēng)議將華為推上了輿論的風(fēng)口浪尖。

爭(zhēng)議爆發(fā)：相似度分析引發(fā)抄襲質(zhì)疑

7月4日，一項(xiàng)發(fā)布于GitHub的研究引發(fā)了業(yè)界的廣泛關(guān)注。用戶@HonestAGI 通過(guò)“LLM 指紋”技術(shù)對(duì)華為盤古Pro MoE模型與阿里巴巴通義千問(wèn)Qwen-2.5 14B模型進(jìn)行了深入分析。結(jié)果顯示，兩者的注意力參數(shù)分布相似性高達(dá)0.927(1.0為完全一致)，這一數(shù)值遠(yuǎn)遠(yuǎn)超出了業(yè)內(nèi)0.7以下的正常差異范圍。由于深度學(xué)習(xí)模型訓(xùn)練的高度隨機(jī)性，如此高的相似度自然引發(fā)了人們對(duì)盤古大模型是否涉嫌抄襲的質(zhì)疑。

華為回應(yīng)：強(qiáng)調(diào)獨(dú)立開(kāi)發(fā)與開(kāi)源合規(guī)

面對(duì)洶涌而來(lái)的質(zhì)疑，7月5日下午，華為旗下負(fù)責(zé)開(kāi)發(fā)盤古大模型的諾亞方舟實(shí)驗(yàn)室迅速發(fā)布聲明，堅(jiān)決否認(rèn)了抄襲指控。聲明指出，盤古Pro MoE開(kāi)源模型是基于昇騰硬件平臺(tái)獨(dú)立開(kāi)發(fā)、訓(xùn)練的基礎(chǔ)大模型，并非基于其他廠商模型增量訓(xùn)練而來(lái)。華為還特別強(qiáng)調(diào)了其在架構(gòu)設(shè)計(jì)、技術(shù)特性等方面的關(guān)鍵創(chuàng)新，例如全球首個(gè)面向昇騰硬件平臺(tái)設(shè)計(jì)的分組混合專家模型(MoGE)架構(gòu)，該架構(gòu)有效解決了大規(guī)模分布式訓(xùn)練的負(fù)載均衡難題，顯著提升了訓(xùn)練效率。

對(duì)于代碼中出現(xiàn)的阿里版權(quán)聲明，華為方面解釋稱，盤古Pro MoE開(kāi)源模型部分基礎(chǔ)組件的代碼實(shí)現(xiàn)參考了業(yè)界開(kāi)源實(shí)踐，其中涉及其他開(kāi)源大模型的部分開(kāi)源代碼。華為表示，他們嚴(yán)格遵循開(kāi)源許可證的要求，在開(kāi)源代碼文件中清晰標(biāo)注了開(kāi)源代碼的版權(quán)聲明，這不僅是開(kāi)源社區(qū)的通行做法，也符合業(yè)界倡導(dǎo)的開(kāi)源協(xié)作精神。

內(nèi)部爆料：?jiǎn)T工自曝存在套殼、續(xù)訓(xùn)、洗水印現(xiàn)象

然而，就在華為官方發(fā)布聲明后的第二天，7月6日凌晨，一位自稱是盤古大模型團(tuán)隊(duì)的員工在網(wǎng)絡(luò)上自曝，稱團(tuán)隊(duì)內(nèi)部確實(shí)存在套殼、續(xù)訓(xùn)、洗水印的現(xiàn)象。該員工表示，由于團(tuán)隊(duì)初期算力有限，盡管做出了諸多努力，但效果并不理想，內(nèi)部質(zhì)疑聲和領(lǐng)導(dǎo)壓力與日俱增。在這種情況下，小模型實(shí)驗(yàn)室多次套殼競(jìng)品，而領(lǐng)導(dǎo)層對(duì)此采取了默許的態(tài)度，以換取短期成果。

網(wǎng)傳華為諾亞方舟實(shí)驗(yàn)室員工爆料長(zhǎng)文截圖

自曝內(nèi)容還稱，經(jīng)過(guò)內(nèi)部分析，盤古Pro MoE實(shí)際上是使用Qwen 1.5 110B進(jìn)行續(xù)訓(xùn)，并通過(guò)加層、擴(kuò)增ffn維度、添加盤古pi論文的一些機(jī)制等方式，湊夠了大約 135B的參數(shù)。為了洗掉千問(wèn)的水印，團(tuán)隊(duì)甚至采取了故意訓(xùn)練臟數(shù)據(jù)等手段。此外，該員工還提到團(tuán)隊(duì)曾選擇套殼DeepSeekv3進(jìn)行續(xù)訓(xùn)，通過(guò)凍住DeepSeek加載的參數(shù)來(lái)進(jìn)行訓(xùn)練。最后，該員工表示出于對(duì)技術(shù)倫理的堅(jiān)持，決定離職并曝光這些內(nèi)幕。截至目前，華為尚未對(duì)此自曝內(nèi)容發(fā)表聲明。

業(yè)內(nèi)觀點(diǎn)：爭(zhēng)議暴露AI大模型開(kāi)源的模糊地帶

此次華為盤古大模型的抄襲爭(zhēng)議，引發(fā)了業(yè)內(nèi)的廣泛討論。許多業(yè)內(nèi)人士認(rèn)為，僅憑“模型指紋”的相似度來(lái)判定抄襲并不完全科學(xué)，因?yàn)椴煌Ｐ驮诩軜?gòu)設(shè)計(jì)、訓(xùn)練數(shù)據(jù)和優(yōu)化算法等方面存在諸多差異，單一的相似度指標(biāo)難以全面反映模型之間的關(guān)系。此外，代碼中出現(xiàn)的開(kāi)源版權(quán)聲明，只能說(shuō)明華為在開(kāi)發(fā)過(guò)程中使用了相關(guān)的開(kāi)源代碼，并且遵循了開(kāi)源協(xié)議，不能直接等同于抄襲。

這起爭(zhēng)議也暴露了當(dāng)前AI大模型開(kāi)源領(lǐng)域存在的一些問(wèn)題。目前，行業(yè)對(duì)于模型權(quán)重的開(kāi)源、借鑒乃至“化用”，缺乏統(tǒng)一、清晰的法律和道德標(biāo)準(zhǔn)。使用開(kāi)源模型架構(gòu)進(jìn)行重新訓(xùn)練、參考部分實(shí)現(xiàn)代碼、直接使用或微調(diào)他人訓(xùn)練好的模型權(quán)重，這三者之間的界限并不明確，存在著較大的灰色地帶。此次事件無(wú)疑給整個(gè)行業(yè)敲響了警鐘，如何在開(kāi)源的同時(shí)保護(hù)知識(shí)產(chǎn)權(quán)，如何建立更加科學(xué)、規(guī)范的模型評(píng)估和監(jiān)管機(jī)制，成為了亟待解決的問(wèn)題。

截至目前，涉事的GitHub庫(kù)已被刪除，阿里巴巴方面也尚未對(duì)此事發(fā)表公開(kāi)回應(yīng)。華為盤古大模型是否真的存在抄襲行為，目前尚無(wú)確鑿證據(jù)。但無(wú)論最終結(jié)果如何，這起爭(zhēng)議都將對(duì)AI大模型行業(yè)的發(fā)展產(chǎn)生深遠(yuǎn)影響，促使企業(yè)和研究者更加重視技術(shù)創(chuàng)新和知識(shí)產(chǎn)權(quán)保護(hù)，推動(dòng)行業(yè)朝著更加健康、有序的方向發(fā)展。