記者 李曄
“2018年提出SenseCore大裝置時,我將其類比為人工智能的粒子對撞機,以期撞出AI基礎(chǔ)科學(xué)定律。”4月23日說這話時,商湯科技董事長兼CEO徐立身處大裝置所在的商湯臨港智算中心。1小時后,他向臺下濟濟一堂的生態(tài)伙伴與客戶介紹行業(yè)首個“云、端、邊”全棧大模型產(chǎn)品矩陣及日日新大模型SenseNova5.0版,后者綜合能力據(jù)稱已達到或超越GPT-4 turbo。
翌日,商湯科技開盤價上漲逾30%,當周股價漲幅近100%。
六年前,被徐立稱為“機器的猜想”的大裝置,讓人看不懂;六年來,商湯每年數(shù)十億元往里砸錢,外界不看好。直到近期,商湯披露2023年財報,加上4月23日商湯技術(shù)交流日上一系列成果發(fā)布,人們恍然大悟:“機器的猜想”不僅撞出了“三月一更”的日日新大模型,撞出了“百模爭流”的算力柴火,還把商湯從行業(yè)標桿推向生態(tài)引領(lǐng)與建設(shè)者“大哥”角色。
“不響”的商湯,在AI大模型演進潮中,激起業(yè)內(nèi)大聲響。
落地
去年4月,商湯的日日新SenseNova大模型體系首次亮相,短短一年內(nèi),已迭代至5.0版,能力再進階。
論寫作,一篇有關(guān)《紅樓夢》的高考作文,GPT-4遵循老套路,日日新5.0版卻能從《詩經(jīng)》談起,引用革故鼎新的典故,再融合互聯(lián)網(wǎng)熱詞,行文發(fā)散,思路打開。
論“文生圖”,“一張具SenseNova標志的未來派建筑圖”,無論標志所嵌位置的恰當性,還是建筑底部呈現(xiàn)的倒影波浪,均實現(xiàn)了較完整的“指令跟隨”。
被問及“13位小朋友玩老鷹抓小雞,已抓5只,還剩幾只?”時,日日新5.0版回答“還剩7只”,證明它準確理解了游戲規(guī)則。
徐立介紹,5.0版性能突破,一靠模型架構(gòu),二靠數(shù)據(jù)構(gòu)造。在混合專家架構(gòu)(MoE)下,大模型數(shù)千億參數(shù)僅“稀疏”激活便能實現(xiàn)高效推理。此次商湯著重在推理層構(gòu)造了數(shù)千億個旨在理順邏輯的合成數(shù)據(jù)。如金融領(lǐng)域,諸多文件間存在規(guī)則沖突,商湯構(gòu)建了外規(guī)強于內(nèi)規(guī)、新規(guī)覆蓋舊規(guī)的強思維鏈,這成為大模型能力提升的關(guān)鍵。
“百模大戰(zhàn)”仍酣,落地才是王道。徐立堅信,中心化的算力需求必會向端側(cè)及行業(yè)邊緣側(cè)拓展,為此商湯早有布局,此番亮出“云、端、邊”全棧大模型產(chǎn)品線,從辦公和代碼助手到虛擬形象再到手機汽車智能終端,均在商湯“射程”內(nèi)。小米、華為、金山辦公、海通證券、閱文集團等一眾燈塔客戶更是親自前來站臺。
小米集團小愛總經(jīng)理王剛透露,近期推出的小米汽車SU7,由小愛同學(xué)為車主提供智能交互體驗,其中也應(yīng)用了商湯的大模型技術(shù)。上“打”GPT-4,下接百千行,商湯此次亮相頗為驚艷,徐立卻多次強調(diào)“性價比”。如針對金融、醫(yī)療、政務(wù)等領(lǐng)域,商湯推出企業(yè)級大模型一體機,不僅解決敏感行業(yè)“數(shù)據(jù)不出域”,而且價格親民。“像代碼大模型一體機,我們按照算力模型仔細核算成本,實現(xiàn)本地部署,單臺支持100人研發(fā)團隊使用,人均每天僅4.5元。”徐立笑言,這大概要拜過去“踩坑無數(shù)”所賜。
柴火
大模型訓(xùn)練如煉丹,以GPU為核心的算力如柴火。為訓(xùn)練GPT-3.5,OpenAI使用了1萬張英偉達GPU。可見誰柴火儲備多,誰就占據(jù)主動。
商湯六年前即布局SenseCore大裝置,2019年就已具備千卡并聯(lián)能力,現(xiàn)總算力規(guī)模增至12000P,運營GPU高達4.5萬張。去年,商湯基于“大模型+大裝置”的生成式AI業(yè)務(wù)錄得12億元收入,占總收入的35%。這也是商湯成立以來從無到有最快超十億元收入體量的新業(yè)務(wù)。
2022年底,ChatGPT橫空出世,引發(fā)全球范圍AI算力需求激增。商湯何以提前四年便有前瞻認知,投入累計達數(shù)百億元?徐立自謙,“當時旨在降成本”。AI落地之初,監(jiān)控窨井蓋缺失等場景,需單獨部署算法、數(shù)據(jù)和一群人。換一個場景,又是相同配置。徐立便考慮,干脆以一個通用模型來覆蓋多場景。但模型越通用,訓(xùn)練數(shù)據(jù)和模型參數(shù)就越多,對算力要求也越高。當年,商湯在市場上遍尋不著可以大規(guī)?;ヂ?lián)的AI算力集群,甚至被云廠商嫌棄這需求過于小眾,要求商湯自行承擔全部一次性工程費用。
那還不如自建呢!當時徐立對下一階段算力需求爆發(fā)的判斷在AI驅(qū)動的科研上,提出地球科學(xué)、材料、生物、制藥、能源五大方向。這些行業(yè)尚未形成定律,AI在其中定大有空間。2018年起,商湯投建大裝置,2020年夏在臨港建設(shè)智算中心,從此開弓再無回頭箭。
很快,曾經(jīng)的“小眾”需求,便演變?yōu)樾袠I(yè)主流。商湯自用算力逐漸向外輸出,大裝置現(xiàn)已實現(xiàn)對萬億參數(shù)大模型的生產(chǎn)支持,具有超30天穩(wěn)定訓(xùn)練不間斷能力,出現(xiàn)間斷時的診斷恢復(fù)時長也被優(yōu)化至半小時內(nèi)。
國內(nèi)正“煉丹”的大模型深知,這些硬核數(shù)字對它們意味著什么。
生態(tài)
但算力輸出能力不單以擁有多少張卡為標準。
從千卡并聯(lián)躍上萬卡臺階,對集群穩(wěn)定性和高效計算構(gòu)成巨大挑戰(zhàn),而且這種工程化的能力無作業(yè)可抄,唯有無數(shù)個日夜的沉浸式攻關(guān)。當下,直面國產(chǎn)算力替代問題,商湯所需攻克的難點更多,“將不同芯片組織起來的算力集群要解決連接、異構(gòu)、能耗、穩(wěn)定性極限等”。徐立稱,商湯總算力中,國產(chǎn)算力已達2000P,未來占比還會更多。
商湯還與上海人工智能實驗室一同研發(fā)了DeepLink并行計算體系。該體系可確保國產(chǎn)芯適配主流的大模型訓(xùn)練框架和算法庫,現(xiàn)已能覆蓋99.5%的CUDA所支持的大模型計算需求。
目前,包括華為、寒武紀、壁仞、沐曦等在內(nèi),商湯大裝置已可深度適配20余款國產(chǎn)芯片,已落地多個千卡級別的國產(chǎn)算力集群。
關(guān)于擔任國產(chǎn)算力生態(tài)構(gòu)建者這一全新角色,徐立認為,用合適的應(yīng)用來倒推國產(chǎn)算力架構(gòu)能力提升,或是可行之路。“我們現(xiàn)在面臨挑戰(zhàn),但正因此,算力平臺的兼容性、異構(gòu)調(diào)度的兼容性等在承壓之下定會奮力崛起。”他自信地說。