今年1月,中國人工智能公司深度求索(DeepSeek)發(fā)布了令人矚目的DeepSeek-R1模型,采取創(chuàng)新的MoE架構(gòu)和高效的訓練方法,使得其在保持高性能的同時實現(xiàn)了較低的算力需求。眾多主流大模型企業(yè)也紛紛加碼MoE架構(gòu)創(chuàng)新。
近日,科大訊飛攜手華為在國產(chǎn)算力領(lǐng)域取得重大進展,雙方聯(lián)合團隊率先突破國產(chǎn)算力集群上MoE模型的大規(guī)模跨節(jié)點專家并行集群推理。這是繼DeepSeek公布其MoE模型訓練推理方案后,業(yè)界首個基于國產(chǎn)算力的全新解決方案。
想要了解科大訊飛與華為的這次突破的意義,需要先了解一下什么是MoE模型。
MoE模型全稱Mixture of Experts,即混合專家模型,是一種先進的神經(jīng)網(wǎng)絡(luò)架構(gòu),旨在通過整合多個模型或“專家”的預測來提升整體模型性能。
MoE模型的核心工作設(shè)計思路是“術(shù)業(yè)有專攻”,通過將輸入數(shù)據(jù)分配給不同的專家子模型,然后將所有子模型的輸出進行合并,以生成最終結(jié)果。舉個例子,MoE模型類似一個酒店的后廚,后廚里面有徽菜、川菜、粵菜等不同菜系的大廚,這些大廚就是專家。客人點完菜,后廚接到任務(wù)后,就由對應菜系的大廚來做。
DeepSeek通過MoE架構(gòu)的創(chuàng)新讓激活參數(shù)比大幅下降,使得同等效果的大模型所需的算力明顯下降。“不過,MoE架構(gòu)雖然能有效降低算力消耗,但在分布式訓練過程中,仍然面臨著跨設(shè)備通信開銷巨大的挑戰(zhàn)。”科大訊飛有關(guān)負責人表示。
DeepSeek成為“國產(chǎn)大模型之光”,但其背后所用的仍然是英偉達提供的算力。以DeepSeek為代表的國產(chǎn)大模型的算法突破,能否與國產(chǎn)算力支撐適配,顯然已經(jīng)成為一項事關(guān)我國大模型和人工智能長遠發(fā)展的急務(wù)。
近日,科大訊飛與華為的聯(lián)合團隊率先突破國產(chǎn)算力集群上MoE模型的大規(guī)??绻?jié)點專家并行集群推理。聯(lián)合團隊通過軟硬件的深度協(xié)同創(chuàng)新,在多個關(guān)鍵技術(shù)層面深挖硬件潛力,完成昇騰集群上的驗證和部署。
通過算子融合、混合并行策略和通信計算并行優(yōu)化等一系列創(chuàng)新,科大訊飛在國產(chǎn)算力上實現(xiàn)了顯著性能提升:單卡靜態(tài)內(nèi)存占用縮減至雙機部署的1/4,效率提升75%,專家計算密度增加4倍,推理吞吐提升3.2倍,端到端時延降低50%。
基于此次科大訊飛攜手華為所做的首個基于國產(chǎn)算力的MoE模型訓推方案,科大訊飛稱,這一突破性的解決方案也將應用于訊飛星火深度推理模型的訓練加速,預期訓練時推理效率將提升200%。同時,基于該方案的推理引擎也實現(xiàn)了國產(chǎn)算力上DeepSeek-V3和R1的高效推理。
算力供應是AI技術(shù)的底層支撐,自主可控方能“防患于未然”。從DeepSeek點燃開源之火,到字節(jié)、阿里爭相技術(shù)共享,再到科大訊飛實現(xiàn)國產(chǎn)算力突破,國內(nèi)MoE賽道已形成“效率迭代”與“自主可控”的雙重敘事。
合肥在線-合新聞記者 張玉蓮 通訊員 許昊杰 許可亮