中文字幕一区二区三区无码,欧美日韩不卡一区二区免费夜夜操 ,亚洲欧美一区二区成人片在线播放

　　原標(biāo)題：科大訊飛與華為聯(lián)手實(shí)現(xiàn)大模型領(lǐng)域新突破

　　國(guó)產(chǎn)算力適配先進(jìn)算法創(chuàng)新

　　今年1月，中國(guó)人工智能公司深度求索發(fā)布了令人矚目的DeepSeek-R1模型，采取創(chuàng)新的MoE架構(gòu)和高效的訓(xùn)練方法，使得其在保持高性能的同時(shí)實(shí)現(xiàn)了較低的算力需求。這是大模型平衡規(guī)模與效率的一次重要探索，眾多主流大模型企業(yè)也紛紛加碼MoE架構(gòu)創(chuàng)新。

　　近日，科大訊飛攜手華為在國(guó)產(chǎn)算力領(lǐng)域取得重大進(jìn)展，雙方聯(lián)合團(tuán)隊(duì)率先突破國(guó)產(chǎn)算力集群上MoE模型的大規(guī)?？绻?jié)點(diǎn)專家并行集群推理。這是繼DeepSeek公布其MoE模型訓(xùn)練推理方案后，業(yè)界首個(gè)基于國(guó)產(chǎn)算力的全新解決方案。

　　“術(shù)業(yè)有專攻”的MoE模型

　　想要了解科大訊飛與華為的這次突破的意義，需要先了解一下什么是MoE模型。

　　MoE模型全稱Mixture of Experts，即混合專家模型，是一種先進(jìn)的神經(jīng)網(wǎng)絡(luò)架構(gòu)，旨在通過(guò)整合多個(gè)模型或“專家”的預(yù)測(cè)來(lái)提升整體模型性能。MoE模型的核心工作設(shè)計(jì)思路是“術(shù)業(yè)有專攻”，通過(guò)將輸入數(shù)據(jù)分配給不同的專家子模型，然后將所有子模型的輸出進(jìn)行合并，以生成最終結(jié)果。

　　通俗來(lái)說(shuō)，就是這個(gè)大模型內(nèi)部有一群擅長(zhǎng)不同技術(shù)的“專家”，當(dāng)我們遇到問題時(shí)，系統(tǒng)就會(huì)分析問題、把大問題拆解成一個(gè)個(gè)小問題，然后選出一個(gè)“專家組合”，讓不同的專家解答對(duì)應(yīng)的小問題，“專業(yè)的人干專業(yè)的事”，再形成最終的答案。

　　舉個(gè)例子，MoE模型類似一個(gè)酒店的后廚，后廚里面有徽菜、川菜、粵菜等不同菜系的大廚，這些大廚就是專家?？腿它c(diǎn)完菜，后廚接到任務(wù)后，就由對(duì)應(yīng)菜系的大廚來(lái)做。

　　那么問題來(lái)了，當(dāng)一個(gè)客人下了單，需要做很多道菜，該怎么合理分工、布置任務(wù)，讓徽菜大廚只做徽菜，而不是分工錯(cuò)誤去做了川菜?

　　這就需要提到MoE模型的一個(gè)關(guān)鍵組成部分——門控網(wǎng)絡(luò)。門控網(wǎng)絡(luò)就像是一個(gè)智能“調(diào)度員”，可以根據(jù)輸入數(shù)據(jù)的特征進(jìn)行動(dòng)態(tài)調(diào)整，確保每個(gè)專家處理其最擅長(zhǎng)的數(shù)據(jù)類型或任務(wù)，從而更高效、準(zhǔn)確地工作。

　　門控網(wǎng)絡(luò)就像后廚中的廚師長(zhǎng)，不需要自己做菜，但是他很清楚每個(gè)廚師的能力，會(huì)根據(jù)客人的點(diǎn)單，安排擅長(zhǎng)做不同菜的廚師來(lái)工作，避免資源浪費(fèi)。

　　因此，MoE模型的一個(gè)優(yōu)勢(shì)就是減少計(jì)算成本，比傳統(tǒng)模型訓(xùn)練成本更低，提高模型性能。

　　加碼MoE架構(gòu)創(chuàng)新

　　近年來(lái)，MoE大模型架構(gòu)憑借平衡大模型訓(xùn)推成本和計(jì)算效率等優(yōu)勢(shì)，更適合處理大規(guī)模數(shù)據(jù)和復(fù)雜任務(wù)，成為字節(jié)、阿里以及科大訊飛等國(guó)內(nèi)主流大模型企業(yè)紛紛加碼的對(duì)象。從通信優(yōu)化到國(guó)產(chǎn)算力適配，一場(chǎng)圍繞效率與生態(tài)的競(jìng)逐賽已然展開。

　　3月1日，DeepSeek發(fā)布了“開源周”后的“彩蛋”，首次公布了模型降本增效的技術(shù)細(xì)節(jié)以及理論上高達(dá)545%的利潤(rùn)率。

　　DeepSeek通過(guò)MoE架構(gòu)的創(chuàng)新讓激活參數(shù)比大幅下降，使得同等效果的大模型所需的算力明顯下降。“DeepSeek的671B參數(shù)模型在處理每個(gè)問題時(shí)，實(shí)際被激活的專家模型參數(shù)僅約37B，算力需求降低至傳統(tǒng)架構(gòu)的約二十分之一?！币晃粯I(yè)內(nèi)人士指出。

　　技術(shù)角逐中，國(guó)內(nèi)主流AI企業(yè)紛紛跟上。3月6日，阿里云發(fā)布并開源了全新的推理模型通義千問QwQ-32B。阿里云稱，該模型采用密集架構(gòu)(Dense)，盡管參數(shù)僅為32B，但性能卻能與滿血版DeepSeek-R1這類MoE模型相媲美。

　　“不過(guò)，MoE架構(gòu)雖然能有效降低算力消耗，但在分布式訓(xùn)練過(guò)程中，仍然面臨著跨設(shè)備通信開銷巨大的挑戰(zhàn)?！笨拼笥嶏w有關(guān)負(fù)責(zé)人表示。

　　近日，科大訊飛與華為的聯(lián)合團(tuán)隊(duì)率先突破國(guó)產(chǎn)算力集群上MoE模型的大規(guī)模跨節(jié)點(diǎn)專家并行集群推理。聯(lián)合團(tuán)隊(duì)通過(guò)軟硬件的深度協(xié)同創(chuàng)新，在多個(gè)關(guān)鍵技術(shù)層面深挖硬件潛力，完成昇騰集群上的驗(yàn)證和部署。

　　通過(guò)算子融合、混合并行策略和通信計(jì)算并行優(yōu)化等一系列創(chuàng)新，科大訊飛在國(guó)產(chǎn)算力上實(shí)現(xiàn)了顯著性能提升：?jiǎn)慰o態(tài)內(nèi)存占用縮減至雙機(jī)部署的1/4，效率提升75%，專家計(jì)算密度增加4倍，推理吞吐提升3.2倍，端到端時(shí)延降低50%。

　　國(guó)產(chǎn)算力迎發(fā)展機(jī)遇

　　DeepSeek成為“國(guó)產(chǎn)大模型之光”，引發(fā)現(xiàn)象級(jí)關(guān)注，根源在于其算法上實(shí)現(xiàn)了諸多引領(lǐng)行業(yè)的創(chuàng)新，并且選擇了開源，但其背后所用的仍然是英偉達(dá)提供的算力。

　　近期我國(guó)人工智能和大模型產(chǎn)業(yè)受到遏制和打壓不斷升級(jí)，在這一背景下，以DeepSeek為代表的國(guó)產(chǎn)大模型的算法突破，能否與國(guó)產(chǎn)算力支撐適配，顯然已經(jīng)成為一項(xiàng)事關(guān)我國(guó)大模型和人工智能長(zhǎng)遠(yuǎn)發(fā)展的急務(wù)。

　　基于此次科大訊飛攜手華為所做的首個(gè)基于國(guó)產(chǎn)算力的MoE模型訓(xùn)推方案，科大訊飛稱，這一突破性的解決方案也將應(yīng)用于訊飛星火深度推理模型的訓(xùn)練加速，預(yù)期訓(xùn)練時(shí)推理效率將提升200%。同時(shí)，基于該方案的推理引擎也實(shí)現(xiàn)了國(guó)產(chǎn)算力上DeepSeek-V3和R1的高效推理。

　　值得注意的是，近期，科大訊飛深度推理大模型星火X1也完成升級(jí)，在模型參數(shù)量比業(yè)界同行少一個(gè)數(shù)量級(jí)的情況下，星火X1的數(shù)學(xué)能力全面對(duì)標(biāo)DeepSeek-R1和OpenAI o1，在中文數(shù)學(xué)各項(xiàng)任務(wù)中均實(shí)現(xiàn)領(lǐng)先。科大訊飛始終堅(jiān)定走國(guó)產(chǎn)化道路，星火X1也是當(dāng)前唯一采用全國(guó)產(chǎn)算力訓(xùn)練的深度推理大模型。

　　算力供應(yīng)是AI技術(shù)的底層支撐，自主可控方能“防患于未然”。從DeepSeek點(diǎn)燃開源之火，到字節(jié)、阿里爭(zhēng)相技術(shù)共享，再到科大訊飛實(shí)現(xiàn)國(guó)產(chǎn)算力突破，國(guó)內(nèi)MoE賽道已形成“效率迭代”與“自主可控”的雙重?cái)⑹隆?/p>

　　國(guó)產(chǎn)算力突破關(guān)乎技術(shù)主權(quán)與供應(yīng)鏈安全，在AI基礎(chǔ)設(shè)施競(jìng)爭(zhēng)白熱化的當(dāng)下，戰(zhàn)略意義顯而易見。

　　不少咨詢機(jī)構(gòu)的研報(bào)均指出，DeepSeek等頭部模型的發(fā)展讓AI應(yīng)用加速落地，持續(xù)放大算力需求，同時(shí)降低AI行業(yè)進(jìn)入門檻與成本，長(zhǎng)期看將推動(dòng)總需求上升而非下降，加速推理算力需求的提升。AI算力國(guó)產(chǎn)化勢(shì)在必行，國(guó)產(chǎn)算力迎來(lái)重要發(fā)展機(jī)遇。

聲明：本媒體部分圖片、文章來(lái)源于網(wǎng)絡(luò)，版權(quán)歸原作者所有，如有侵權(quán)，請(qǐng)聯(lián)系刪除：025-84707368，廣告合作：025-84708755。

成人免费AV网址|亚洲手机免费在线|最新av网址发布|67194成人草|在线国产视频91|一区二区无码竹菊|91国产精品综合|日本熟女综合视频|国产免费强奸视频|最近中文字幕99

長(zhǎng)三角經(jīng)濟(jì)圈

科大訊飛與華為聯(lián)手實(shí)現(xiàn)大模型領(lǐng)域新突破