記者 俞陶然
隨著國產(chǎn)GPU(圖形處理器)芯片的興起,如何將進(jìn)口和國產(chǎn)GPU有效結(jié)合在一起,打造異構(gòu)芯片算力集群,成為發(fā)展人工智能的一個重要問題。2024世界人工智能大會上,上海企業(yè)無問芯穹發(fā)布了業(yè)內(nèi)首個千卡規(guī)模異構(gòu)芯片混訓(xùn)平臺,其算力利用率最高達(dá)到97.6%。這家源于清華大學(xué)電子工程系的企業(yè)與清華大學(xué)、上海交通大學(xué)科研團隊合作,實現(xiàn)了華為昇騰、天數(shù)智芯、沐曦、摩爾線程、AMD、英偉達(dá)等6種品牌芯片的交叉混合訓(xùn)練,為大模型訓(xùn)練提供了算力解決方案。
據(jù)介紹,Infini-AI云平臺集成了大模型異構(gòu)千卡混訓(xùn)能力,是業(yè)內(nèi)首個可進(jìn)行單任務(wù)千卡規(guī)模異構(gòu)芯片混合訓(xùn)練的平臺,并具備萬卡擴展性,支持采用華為昇騰、AMD、英偉達(dá)等6種異構(gòu)芯片的大模型混合訓(xùn)練。
與國際上模型層與芯片層“相對集中”的格局相比,國內(nèi)模型層與芯片層更加“百花齊放”。這是市場競爭充分的一種表現(xiàn),但大量的異構(gòu)芯片也造成了“生態(tài)隔離”,給算力的使用方帶來一系列技術(shù)挑戰(zhàn)。據(jù)不完全統(tǒng)計,宣布擁有千卡規(guī)模的國內(nèi)算力集群不少于100個,但存在難以有效整合與利用的問題,這是當(dāng)前大模型行業(yè)面臨“算力荒”的一個重要原因。
針對這個問題,無問芯穹提出解決方案:開發(fā)高效整合異構(gòu)算力資源的算力平臺,以及支持軟硬件聯(lián)合優(yōu)化與加速的中間件,讓異構(gòu)芯片真正轉(zhuǎn)化為大算力。