記者 俞陶然
隨著國(guó)產(chǎn)GPU(圖形處理器)芯片的興起,如何將進(jìn)口和國(guó)產(chǎn)GPU有效結(jié)合在一起,打造異構(gòu)芯片算力集群,成為發(fā)展人工智能的一個(gè)重要問(wèn)題。2024世界人工智能大會(huì)上,上海企業(yè)無(wú)問(wèn)芯穹發(fā)布了業(yè)內(nèi)首個(gè)千卡規(guī)模異構(gòu)芯片混訓(xùn)平臺(tái),其算力利用率最高達(dá)到97.6%。這家源于清華大學(xué)電子工程系的企業(yè)與清華大學(xué)、上海交通大學(xué)科研團(tuán)隊(duì)合作,實(shí)現(xiàn)了華為昇騰、天數(shù)智芯、沐曦、摩爾線程、AMD、英偉達(dá)等6種品牌芯片的交叉混合訓(xùn)練,為大模型訓(xùn)練提供了算力解決方案。
據(jù)介紹,Infini-AI云平臺(tái)集成了大模型異構(gòu)千卡混訓(xùn)能力,是業(yè)內(nèi)首個(gè)可進(jìn)行單任務(wù)千卡規(guī)模異構(gòu)芯片混合訓(xùn)練的平臺(tái),并具備萬(wàn)卡擴(kuò)展性,支持采用華為昇騰、AMD、英偉達(dá)等6種異構(gòu)芯片的大模型混合訓(xùn)練。
與國(guó)際上模型層與芯片層“相對(duì)集中”的格局相比,國(guó)內(nèi)模型層與芯片層更加“百花齊放”。這是市場(chǎng)競(jìng)爭(zhēng)充分的一種表現(xiàn),但大量的異構(gòu)芯片也造成了“生態(tài)隔離”,給算力的使用方帶來(lái)一系列技術(shù)挑戰(zhàn)。據(jù)不完全統(tǒng)計(jì),宣布擁有千卡規(guī)模的國(guó)內(nèi)算力集群不少于100個(gè),但存在難以有效整合與利用的問(wèn)題,這是當(dāng)前大模型行業(yè)面臨“算力荒”的一個(gè)重要原因。
針對(duì)這個(gè)問(wèn)題,無(wú)問(wèn)芯穹提出解決方案:開(kāi)發(fā)高效整合異構(gòu)算力資源的算力平臺(tái),以及支持軟硬件聯(lián)合優(yōu)化與加速的中間件,讓異構(gòu)芯片真正轉(zhuǎn)化為大算力。