商湯科技SenseCore大裝置事業(yè)群智算中心技術(shù)總監(jiān)宋祎寓記得,作為大裝置重要載體的人工智能計(jì)算中心(簡(jiǎn)稱商湯臨港AIDC),從一片瓜田到正式投用,用時(shí)僅18個(gè)月。
最新數(shù)據(jù)顯示,商湯大裝置管理的總算力規(guī)模已高達(dá)1.2萬(wàn)petaFLOPS(千兆次浮點(diǎn)運(yùn)算),其中臨港AIDC就有8100petaFLOPS,且是立項(xiàng)規(guī)劃時(shí)的2.17倍。大裝置現(xiàn)已實(shí)現(xiàn)對(duì)萬(wàn)億參數(shù)大模型的生產(chǎn)支持,能保持90%的加速效率,具有超30天穩(wěn)定訓(xùn)練不間斷能力,出現(xiàn)訓(xùn)練間斷時(shí)的診斷恢復(fù)時(shí)長(zhǎng)也被優(yōu)化到了半小時(shí)內(nèi)……
這些數(shù)字,對(duì)于當(dāng)下國(guó)內(nèi)“百模爭(zhēng)流”,有著至關(guān)重要的意義。
前瞻性
若將大模型訓(xùn)練過(guò)程比作煉丹,那么以GPU為核心的算力,便是煉丹爐下的柴火。誰(shuí)儲(chǔ)備得多,誰(shuí)就占據(jù)主動(dòng)。為訓(xùn)練GPT-3.5模型,OpenAI使用了約1萬(wàn)顆英偉達(dá)GPU。
但單有芯片儲(chǔ)備還不夠,將千卡(訓(xùn)練消耗的算力卡數(shù)量)乃至萬(wàn)卡并聯(lián)同樣關(guān)鍵,否則大模型的訓(xùn)練推理仍無(wú)從談起。事實(shí)上,2019年左右,商湯大裝置便已具備了千卡并聯(lián)能力。而當(dāng)時(shí),還沒(méi)有ChatGPT。
這并非幸運(yùn)垂青,而是前瞻認(rèn)知與實(shí)力使然。
商湯科技以計(jì)算機(jī)視覺(jué)獲得學(xué)術(shù)界和產(chǎn)業(yè)界廣泛認(rèn)可,對(duì)神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)始終有著最深積淀。而視覺(jué)信息本身比語(yǔ)音、文本來(lái)得復(fù)雜得多,其訓(xùn)練計(jì)算量巨大?!爱?dāng)年,我們?cè)谑袌?chǎng)上始終找不到如此大規(guī)模互聯(lián)、可用于AI的算力集群,甚至有云廠商說(shuō)我們的需求太‘小眾’。因此我們不得不自建大裝置,以支撐公司更高維度的研發(fā)和業(yè)務(wù)需要?!鄙虦萍级剞k董事總經(jīng)理盛世偉說(shuō)。
2018年起,商湯每年以數(shù)十億元投入SenseCore大裝置,并于2020年夏建設(shè)臨港AIDC。這些舉措起初并不為外界看懂及看好。誰(shuí)能想到,當(dāng)生成式AI大潮洶涌而來(lái),尤其是海外高性能GPU芯片出口受限情況下,商湯曾經(jīng)的“小眾”需求,竟已演變?yōu)樾袠I(yè)最主流最急迫的痛點(diǎn)。
硬功夫
可見(jiàn)商湯大裝置的問(wèn)世與成長(zhǎng),也是其自用算力逐漸走向算力商業(yè)化的過(guò)程。這關(guān)乎一種擔(dān)當(dāng),但更核心在于能力。
“盡管5年前我們就實(shí)現(xiàn)了千卡并聯(lián),但要從千卡邁上萬(wàn)卡,絕非云淡風(fēng)輕?!鄙虦萍即笱b置事業(yè)群智算中心總經(jīng)理林海印象深刻,團(tuán)隊(duì)在組第一個(gè)3000卡集群時(shí),整個(gè)團(tuán)隊(duì)沒(méi)日沒(méi)夜地加班了一個(gè)月。
這種工程化的能力,沒(méi)有作業(yè)可抄。從1000卡到3000卡、從3000卡到5000卡,每上一個(gè)臺(tái)階,都是對(duì)集群穩(wěn)定性的巨大挑戰(zhàn)。如何選擇線纜、光模塊以降低故障率,怎樣從算力層面進(jìn)行優(yōu)化,怎樣將散落在天南地北若干個(gè)機(jī)房的約3000petaFLOPS算力運(yùn)載回上海主基地并搭建成群、實(shí)現(xiàn)測(cè)試和上線……面對(duì)這些難啃問(wèn)題,在大裝置首席科學(xué)家林華達(dá)的帶領(lǐng)下,團(tuán)隊(duì)沉浸式攻關(guān),堅(jiān)信厚積才能薄發(fā),集群穩(wěn)定性及效率指標(biāo)被一遍遍刷新。
在加速國(guó)產(chǎn)算力布局及實(shí)現(xiàn)軟硬件協(xié)同上,大裝置團(tuán)隊(duì)同樣付出不懈努力。國(guó)內(nèi)大廠此前對(duì)英偉達(dá)芯片有較大依賴,不僅在于英偉達(dá)領(lǐng)先的GPU性能,也在于英偉達(dá)的可使GPU性能大幅提升的統(tǒng)一計(jì)算架構(gòu)CUDA。近年來(lái),商湯心心念念于加大國(guó)產(chǎn)芯片兼容適配,與上海人工智能實(shí)驗(yàn)室一同研發(fā)了DeepLink并行計(jì)算體系。這一國(guó)內(nèi)并行計(jì)算平臺(tái)的佼佼者,可確保國(guó)產(chǎn)芯片適配主流的大模型訓(xùn)練框架和算法庫(kù),如PyTorch、DeepSpeed等常見(jiàn)的開(kāi)源訓(xùn)練框架,以及商湯的OpenMMLab、OpenDILab等開(kāi)源算法庫(kù)。目前,CUDA所能支持的AI大模型計(jì)算需求,DeepLink的覆蓋率已在99.5%以上。
目前,包括華為、寒武紀(jì)、壁仞、沐曦等國(guó)產(chǎn)芯片在內(nèi),商湯大裝置已可深度適配20余款國(guó)產(chǎn)芯片,已落地多個(gè)千卡級(jí)別國(guó)產(chǎn)算力集群,國(guó)產(chǎn)算力商業(yè)化進(jìn)程儼然加速。
強(qiáng)賦能
隨著大模型時(shí)代到來(lái),算力即服務(wù),模型即服務(wù)。去年,商湯作出重大變軌,其業(yè)務(wù)板塊由過(guò)去以AI 1.0為主,切換到AI 2.0。商湯最新財(cái)報(bào)顯示,2023年,商湯生成式AI業(yè)務(wù)從無(wú)到有,收入已達(dá)12億元。這是商湯自2014年成立以來(lái)最快破10億元收入體量的新業(yè)務(wù)。
據(jù)介紹,去年以來(lái),已有上千個(gè)參數(shù)量數(shù)十億至上千億的大模型,在SenseCore商湯大裝置上完成訓(xùn)練,其中不乏京東、小米、閱文、金山辦公等燈塔客戶,以及瀾舟科技、Tiamat等AI初創(chuàng)公司。一些頭部金融機(jī)構(gòu)及醫(yī)院,正調(diào)用商湯模型,或依靠商湯大裝置能力,訓(xùn)練其自身垂類模型。包括蛋白質(zhì)折疊等多領(lǐng)域的重大基礎(chǔ)科學(xué)研究,也獲得了商湯的算力助力。
如在氣象領(lǐng)域,由上海人工智能實(shí)驗(yàn)室聯(lián)合中國(guó)科學(xué)技術(shù)大學(xué)等高校院所推出的全球中期氣象預(yù)報(bào)AI大模型“風(fēng)烏”,在商湯大裝置助力之下,首次實(shí)現(xiàn)對(duì)關(guān)鍵氣象要素的有效預(yù)報(bào)時(shí)長(zhǎng)達(dá)10.75天。而此前,全球范圍內(nèi)最好的物理模型HRES的有效預(yù)報(bào)時(shí)長(zhǎng)為8.5天。另外,“風(fēng)烏”在80%的評(píng)估指標(biāo)上超越谷歌旗下DeepMind氣象大模型GraphCast。
大裝置同樣支持了商湯自己的“日日新”大模型體系的高速迭代。據(jù)透露,今年2月推出的“日日新4.0”版本,在代碼編寫、數(shù)據(jù)分析和醫(yī)療問(wèn)答等多場(chǎng)景中,已達(dá)到與GPT-4相匹配的能力?!叭杖招?.0”版本預(yù)計(jì)今年4月將發(fā)布,性能全面對(duì)標(biāo)GPT-4 Turbo。
臨港AIDC如今13萬(wàn)平方米的整體規(guī)模中已投用7萬(wàn)平方米,但未來(lái)算力擴(kuò)容的潛力依然令人振奮。大裝置團(tuán)隊(duì)正繼續(xù)以?shī)^進(jìn)者姿態(tài),為大模型時(shí)代貢獻(xiàn)戰(zhàn)略價(jià)值。