商湯科技SenseCore大裝置事業(yè)群智算中心技術總監(jiān)宋祎寓記得,作為大裝置重要載體的人工智能計算中心(簡稱商湯臨港AIDC),從一片瓜田到正式投用,用時僅18個月。
最新數(shù)據(jù)顯示,商湯大裝置管理的總算力規(guī)模已高達1.2萬petaFLOPS(千兆次浮點運算),其中臨港AIDC就有8100petaFLOPS,且是立項規(guī)劃時的2.17倍。大裝置現(xiàn)已實現(xiàn)對萬億參數(shù)大模型的生產(chǎn)支持,能保持90%的加速效率,具有超30天穩(wěn)定訓練不間斷能力,出現(xiàn)訓練間斷時的診斷恢復時長也被優(yōu)化到了半小時內……
這些數(shù)字,對于當下國內“百模爭流”,有著至關重要的意義。
前瞻性
若將大模型訓練過程比作煉丹,那么以GPU為核心的算力,便是煉丹爐下的柴火。誰儲備得多,誰就占據(jù)主動。為訓練GPT-3.5模型,OpenAI使用了約1萬顆英偉達GPU。
但單有芯片儲備還不夠,將千卡(訓練消耗的算力卡數(shù)量)乃至萬卡并聯(lián)同樣關鍵,否則大模型的訓練推理仍無從談起。事實上,2019年左右,商湯大裝置便已具備了千卡并聯(lián)能力。而當時,還沒有ChatGPT。
這并非幸運垂青,而是前瞻認知與實力使然。
商湯科技以計算機視覺獲得學術界和產(chǎn)業(yè)界廣泛認可,對神經(jīng)網(wǎng)絡和深度學習始終有著最深積淀。而視覺信息本身比語音、文本來得復雜得多,其訓練計算量巨大?!爱斈辏覀冊谑袌錾鲜冀K找不到如此大規(guī)?;ヂ?lián)、可用于AI的算力集群,甚至有云廠商說我們的需求太‘小眾’。因此我們不得不自建大裝置,以支撐公司更高維度的研發(fā)和業(yè)務需要。”商湯科技董秘辦董事總經(jīng)理盛世偉說。
2018年起,商湯每年以數(shù)十億元投入SenseCore大裝置,并于2020年夏建設臨港AIDC。這些舉措起初并不為外界看懂及看好。誰能想到,當生成式AI大潮洶涌而來,尤其是海外高性能GPU芯片出口受限情況下,商湯曾經(jīng)的“小眾”需求,竟已演變?yōu)樾袠I(yè)最主流最急迫的痛點。
硬功夫
可見商湯大裝置的問世與成長,也是其自用算力逐漸走向算力商業(yè)化的過程。這關乎一種擔當,但更核心在于能力。
“盡管5年前我們就實現(xiàn)了千卡并聯(lián),但要從千卡邁上萬卡,絕非云淡風輕?!鄙虦萍即笱b置事業(yè)群智算中心總經(jīng)理林海印象深刻,團隊在組第一個3000卡集群時,整個團隊沒日沒夜地加班了一個月。
這種工程化的能力,沒有作業(yè)可抄。從1000卡到3000卡、從3000卡到5000卡,每上一個臺階,都是對集群穩(wěn)定性的巨大挑戰(zhàn)。如何選擇線纜、光模塊以降低故障率,怎樣從算力層面進行優(yōu)化,怎樣將散落在天南地北若干個機房的約3000petaFLOPS算力運載回上海主基地并搭建成群、實現(xiàn)測試和上線……面對這些難啃問題,在大裝置首席科學家林華達的帶領下,團隊沉浸式攻關,堅信厚積才能薄發(fā),集群穩(wěn)定性及效率指標被一遍遍刷新。
在加速國產(chǎn)算力布局及實現(xiàn)軟硬件協(xié)同上,大裝置團隊同樣付出不懈努力。國內大廠此前對英偉達芯片有較大依賴,不僅在于英偉達領先的GPU性能,也在于英偉達的可使GPU性能大幅提升的統(tǒng)一計算架構CUDA。近年來,商湯心心念念于加大國產(chǎn)芯片兼容適配,與上海人工智能實驗室一同研發(fā)了DeepLink并行計算體系。這一國內并行計算平臺的佼佼者,可確保國產(chǎn)芯片適配主流的大模型訓練框架和算法庫,如PyTorch、DeepSpeed等常見的開源訓練框架,以及商湯的OpenMMLab、OpenDILab等開源算法庫。目前,CUDA所能支持的AI大模型計算需求,DeepLink的覆蓋率已在99.5%以上。
目前,包括華為、寒武紀、壁仞、沐曦等國產(chǎn)芯片在內,商湯大裝置已可深度適配20余款國產(chǎn)芯片,已落地多個千卡級別國產(chǎn)算力集群,國產(chǎn)算力商業(yè)化進程儼然加速。
強賦能
隨著大模型時代到來,算力即服務,模型即服務。去年,商湯作出重大變軌,其業(yè)務板塊由過去以AI 1.0為主,切換到AI 2.0。商湯最新財報顯示,2023年,商湯生成式AI業(yè)務從無到有,收入已達12億元。這是商湯自2014年成立以來最快破10億元收入體量的新業(yè)務。
據(jù)介紹,去年以來,已有上千個參數(shù)量數(shù)十億至上千億的大模型,在SenseCore商湯大裝置上完成訓練,其中不乏京東、小米、閱文、金山辦公等燈塔客戶,以及瀾舟科技、Tiamat等AI初創(chuàng)公司。一些頭部金融機構及醫(yī)院,正調用商湯模型,或依靠商湯大裝置能力,訓練其自身垂類模型。包括蛋白質折疊等多領域的重大基礎科學研究,也獲得了商湯的算力助力。
如在氣象領域,由上海人工智能實驗室聯(lián)合中國科學技術大學等高校院所推出的全球中期氣象預報AI大模型“風烏”,在商湯大裝置助力之下,首次實現(xiàn)對關鍵氣象要素的有效預報時長達10.75天。而此前,全球范圍內最好的物理模型HRES的有效預報時長為8.5天。另外,“風烏”在80%的評估指標上超越谷歌旗下DeepMind氣象大模型GraphCast。
大裝置同樣支持了商湯自己的“日日新”大模型體系的高速迭代。據(jù)透露,今年2月推出的“日日新4.0”版本,在代碼編寫、數(shù)據(jù)分析和醫(yī)療問答等多場景中,已達到與GPT-4相匹配的能力?!叭杖招?.0”版本預計今年4月將發(fā)布,性能全面對標GPT-4 Turbo。
臨港AIDC如今13萬平方米的整體規(guī)模中已投用7萬平方米,但未來算力擴容的潛力依然令人振奮。大裝置團隊正繼續(xù)以奮進者姿態(tài),為大模型時代貢獻戰(zhàn)略價值。