浙江在線8月13日訊(記者 何冬健 通訊員 肖樂 盛汪淼芷)眼下,以大模型為代表的人工智能技術(shù),引發(fā)了新一輪科技發(fā)展浪潮。其中,與DeepSeek等擅長(zhǎng)處理日常文字類任務(wù)的通用大模型不同,大科學(xué)模型瞄準(zhǔn)處理各個(gè)科學(xué)領(lǐng)域的種種專業(yè)問題,正在引發(fā)科研范式和方法的革命。
當(dāng)你想讓人工智能寫份工作總結(jié),它大概率能輕松搞定;可要是問它 “蛋白質(zhì)折疊的最低能量狀態(tài)怎么算”,多數(shù)通用人工智能就只能支支吾吾了。
這就是當(dāng)下人工智能領(lǐng)域的現(xiàn)實(shí):通用大模型擅長(zhǎng)處理日常文字類任務(wù),像寫講話稿、整理會(huì)議紀(jì)要這類活兒,對(duì)它們來(lái)說不在話下。但面對(duì)專業(yè)的科學(xué)問題,它們就顯得力不從心了。
與之不同的是,在之江實(shí)驗(yàn)室,由100多名計(jì)算專家組成的研究團(tuán)隊(duì)正聚力打造的科學(xué)基礎(chǔ)模型,卻瞄準(zhǔn)了這些 “硬骨頭”。它不僅能處理公式、分子結(jié)構(gòu)、基因序列等復(fù)雜數(shù)據(jù),更能像領(lǐng)域?qū)<乙粯?,循著科學(xué)邏輯找到答案。比如研究黑洞時(shí),它會(huì)整合光學(xué)觀測(cè)數(shù)據(jù)一步步推導(dǎo)可能的位置;探索疾病奧秘時(shí),能從蛋白序列一路追溯到基因缺陷。
“這讓人工智能模型從‘描述世界’躍升至真正‘理解科學(xué)’的嶄新境界?!敝瓕?shí)驗(yàn)室相關(guān)科學(xué)家介紹。而這正是科學(xué)基礎(chǔ)模型與通用模型最核心的區(qū)別。
不止“寫文章”,更會(huì)“科學(xué)推理”
今年年初,名為Humanity’s Last Exam(人類最后一次考試)的大模型測(cè)試項(xiàng)目誕生。其包含2500個(gè)問題,由數(shù)百位領(lǐng)域?qū)<议_發(fā),用于追尋人類知識(shí)推理的邊界。這場(chǎng)“測(cè)試”顯示,那些看似無(wú)所不能的通用大模型實(shí)際準(zhǔn)確率最高的僅有25.4%(數(shù)據(jù)庫(kù)更新時(shí)間為2025年4月3日)。
2020年,人工智能系統(tǒng)AlphaFold橫空出世。在此之前,解析一個(gè)蛋白質(zhì)的折疊結(jié)構(gòu)堪稱科研界的“馬拉松”。之江實(shí)驗(yàn)室科學(xué)模型總體部技術(shù)總師薛貴榮親眼見過同事在超算中心守了3個(gè)月,盯著屏幕上原子運(yùn)動(dòng)軌跡一點(diǎn)點(diǎn)收斂,最后得出的結(jié)構(gòu)還得靠冷凍電鏡反復(fù)驗(yàn)證。這個(gè)專業(yè)模型把整個(gè)過程壓縮到了分鐘級(jí)。薛貴榮突然意識(shí)到:人工智能不僅能“做題目”,還能像科學(xué)家一樣“搞推理”。
STEM教育是美國(guó)首先提出的人才培養(yǎng)計(jì)劃,旨在提升學(xué)生的科學(xué)(Science)、技術(shù)(Technology)、工程(Engineering)和數(shù)學(xué)(Mathematics)能力,并迅速成為知識(shí)經(jīng)濟(jì)時(shí)代人才培養(yǎng)的重要標(biāo)準(zhǔn)。
薛貴榮認(rèn)為,科學(xué)基礎(chǔ)模型的出現(xiàn),將顛覆STEM模式?!百だ杂幸粋€(gè)著名的論斷——宇宙是一本用數(shù)學(xué)語(yǔ)言寫成的‘宏偉之作’。在STEM中,‘M’其實(shí)是支撐‘STE’發(fā)展的重要工具。人工智能時(shí)代,我們認(rèn)為數(shù)學(xué)、人工智能將共同推動(dòng)‘STE’這三門學(xué)科的科研范式變革?!?/p>
過去,科學(xué)家80%的時(shí)間耗在查文獻(xiàn)、算數(shù)據(jù)、分析推理上,只剩20%的精力思考核心問題;現(xiàn)在,模型可以接手這些繁瑣工作。
中國(guó)科學(xué)院院士陳潤(rùn)生在接受媒體采訪時(shí),感觸尤深,這位參與過中國(guó)人類基因組研究的科學(xué)家,將投身大模型研究視為自己人生第三次重要抉擇:我的人生至此經(jīng)歷了三次抉擇:第一次是給沃森寫信,相信人類一定要破譯遺傳密碼,此后參加了中國(guó)的人類基因組研究;第二次是對(duì)人類基因組序列組裝后發(fā)現(xiàn),編碼蛋白質(zhì)的基因組序列只占人類基因組的一小部分(不超過5%),從而率先開展了非編碼研究;第三次,就是我最近參與學(xué)習(xí)、研究和推動(dòng)的大模型。
盡管研發(fā)難度高、挑戰(zhàn)大科學(xué)基礎(chǔ)模型目前已經(jīng)取得許多突破,并且已用于科研實(shí)踐,在藥物研發(fā)、材料科學(xué)、分子模擬、天氣預(yù)報(bào)、流場(chǎng)預(yù)測(cè)等領(lǐng)域發(fā)揮作用。
日前,《北京市加快人工智能賦能科學(xué)研究高質(zhì)量發(fā)展行動(dòng)計(jì)劃(2025—2027年)》正式發(fā)布,提出到2027年建成科學(xué)基礎(chǔ)大模型。在浙江,科學(xué)基礎(chǔ)模型作為重點(diǎn),同樣已提上日程。
如何從零開始打造一個(gè)前所未有的科學(xué)基礎(chǔ)模型?薛貴榮最初也找不到突破口。但有一個(gè)問題顯而易見:作為為科學(xué)家打造的模型,科學(xué)家到底需要什么?
團(tuán)隊(duì)作了一個(gè)決定,先從領(lǐng)域模型開始著手?!巴ㄟ^測(cè)試我們發(fā)現(xiàn),通用模型在回答專業(yè)領(lǐng)域的問題時(shí),表現(xiàn)并不好,無(wú)論是準(zhǔn)確性,還是深度和廣度。”于是,基于目前主流的幾款通用大語(yǔ)言模型,團(tuán)隊(duì)打造了地學(xué)領(lǐng)域模型GeoGPT和天文領(lǐng)域模型OneAstronomy。
在打造GeoGPT的過程中,研發(fā)團(tuán)隊(duì)與美國(guó)普渡大學(xué)詹姆斯·奧格教授團(tuán)隊(duì)合作,共同攻克了全球權(quán)威巨著《無(wú)脊椎動(dòng)物專著》的數(shù)據(jù)化難題。這部涵蓋50卷、10萬(wàn)化石屬的“數(shù)據(jù)金礦”,因紙質(zhì)載體限制和復(fù)雜數(shù)據(jù)結(jié)構(gòu)長(zhǎng)期無(wú)法被有效利用。研究團(tuán)隊(duì)創(chuàng)新性地提出了“AI 批量抽取+專家驗(yàn)證+模型迭代”的協(xié)同技術(shù)路線:GeoGPT團(tuán)隊(duì)負(fù)責(zé)研發(fā)核心的自動(dòng)化數(shù)據(jù)抽取引擎,實(shí)現(xiàn)了化石屬名、地質(zhì)年代、生物地理分布等關(guān)鍵信息的結(jié)構(gòu)化轉(zhuǎn)換;奧格教授團(tuán)隊(duì)則主導(dǎo)數(shù)據(jù)標(biāo)準(zhǔn)制定、結(jié)果驗(yàn)證及可交互數(shù)據(jù)庫(kù)的構(gòu)建。
團(tuán)隊(duì)僅用4個(gè)月便完成了3卷數(shù)千化石屬的精準(zhǔn)提取,時(shí)間成本降低75%?!癎eoGPT將過去視為‘不可能’的化石大數(shù)據(jù)工程變?yōu)楝F(xiàn)實(shí)?!眾W格教授摩挲著屏幕上自動(dòng)生成的生物演化樹,眼里閃著興奮的光?;诋?dāng)前成果,團(tuán)隊(duì)正規(guī)劃將技術(shù)拓展至生物演化樹等更高維度的圖表數(shù)據(jù)挖掘領(lǐng)域,進(jìn)一步推動(dòng)古生物學(xué)研究的數(shù)字化轉(zhuǎn)型。
在與領(lǐng)域科學(xué)家的不斷交流碰撞中,需求不再脫鉤,團(tuán)隊(duì)也錘煉出了將科學(xué)數(shù)據(jù)token化(即將連續(xù)文本、圖像等數(shù)據(jù)分割為具有獨(dú)立語(yǔ)義或功能的最小處理單元的過程)的能力。構(gòu)建科學(xué)基礎(chǔ)模型,似乎有了眉目。
從地基開始“造房子”
從領(lǐng)域模型到基礎(chǔ)模型,科學(xué)數(shù)據(jù)是關(guān)鍵。
“科學(xué)模型本質(zhì)上還是三件事,算力、token和深度學(xué)習(xí)架構(gòu),我們熟悉的AlphaFold、ChatGPT都是在這個(gè)框架下訓(xùn)練出來(lái),還有很多人在用這樣一個(gè)框架做很多其他類似的模型,比如說天氣預(yù)報(bào)、基因模型、蛋白質(zhì)模型。”薛貴榮想,科學(xué)不僅是用語(yǔ)言來(lái)表示的,還有很多是用公式、分子式、圖像等等來(lái)表示的。之江實(shí)驗(yàn)室要做的就是,把所有這些科學(xué)數(shù)據(jù)全部token化,在一個(gè)模型框架里面訓(xùn)練。
“現(xiàn)在的AlphaFold已經(jīng)到了第三代,把token化對(duì)象從蛋白質(zhì)擴(kuò)展到了DNA、RNA、小分子配體、抗體,盡管它們的表達(dá)都不一樣,但將它們token化之后,就可以放在同一個(gè)空間下去訓(xùn)練,所以AlphaFold不僅僅能夠高精度地預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu),同時(shí)也可以預(yù)測(cè)其他生物分子形成的復(fù)雜結(jié)構(gòu)?!毖F榮表示,“這個(gè)時(shí)候模型的魅力就出來(lái)了。”
把基因序列、蛋白質(zhì)結(jié)構(gòu)、天文數(shù)據(jù)、材料分子結(jié)構(gòu)等科學(xué)知識(shí)都變成統(tǒng)一的“數(shù)據(jù)語(yǔ)言”,放進(jìn)一個(gè)模型里。這個(gè)看起來(lái)略顯瘋狂的想法,讓這群計(jì)算專家度過了無(wú)數(shù)通宵達(dá)旦的日子,實(shí)驗(yàn)室的科學(xué)基礎(chǔ)模型021 Large Science Model(簡(jiǎn)稱“021 LSM”)逐步有了雛形。
融入天文、地學(xué)、數(shù)學(xué)、物理、化學(xué)、生物等多學(xué)科的科學(xué)數(shù)據(jù),科學(xué)基礎(chǔ)模型相當(dāng)于從地基開始“造房子”。
2024年,之江實(shí)驗(yàn)室與國(guó)家科技圖書文獻(xiàn)中心(NSTL)簽訂了“共建科技語(yǔ)料庫(kù)戰(zhàn)略合作框架協(xié)議”。基于該中心文獻(xiàn),團(tuán)隊(duì)構(gòu)建了科學(xué)文獻(xiàn)語(yǔ)料處理流水線,表格、圖像及學(xué)科標(biāo)簽均被精準(zhǔn)解析,確保“喂”給模型的都是科研精華。
2025年初,021 LSM正式啟動(dòng)覆蓋174個(gè)學(xué)科的科學(xué)語(yǔ)料生產(chǎn)計(jì)劃,由具備相關(guān)學(xué)科專業(yè)背景的科研人員對(duì)34萬(wàn)個(gè)網(wǎng)站開展系統(tǒng)性質(zhì)量評(píng)估,確保語(yǔ)料在準(zhǔn)確性、專業(yè)性等方面達(dá)到高標(biāo)準(zhǔn)要求。
在GeoGPT的研究中,為了讓模型“學(xué)透”地學(xué),團(tuán)隊(duì)與國(guó)內(nèi)外25家機(jī)構(gòu)、400余位地學(xué)專家共建全球最專業(yè)的地學(xué)領(lǐng)域數(shù)據(jù)集,覆蓋8個(gè)地學(xué)二級(jí)學(xué)科。與此同時(shí),之江實(shí)驗(yàn)室還通過與中國(guó)科學(xué)院國(guó)家天文臺(tái)共同舉辦大模型種子班等方式,推動(dòng)天文專業(yè)數(shù)據(jù)和人工智能算法深度融合,進(jìn)一步提升模型語(yǔ)料的科學(xué)密度。
021 LSM沒有在現(xiàn)有通用基礎(chǔ)模型上“搭房子”,而是“從0到1”打地基“建房子”。這極具挑戰(zhàn)。
“基礎(chǔ)模型決定了模型能級(jí)的上限?!毖F榮感嘆,“就好比1升的瓶子裝不下3升的水,在他人的通用模型的框架里做研究就很難有所突破?!?/p>
目前,021 LSM模型訓(xùn)練流程每個(gè)階段都可能耗時(shí)數(shù)月。讓人工智能模型從“描述世界”躍升至真正“理解科學(xué)”的嶄新境界,團(tuán)隊(duì)正跋涉在一條前人未至之路上。
讓世界換一種玩法
今年6月,021 LSM作為一名浙江的虛擬考生參與了全國(guó)高考。滿分150的全國(guó)新高考Ⅰ卷,它能考143分。它還有“成長(zhǎng)空間”——針對(duì)幾何類的題目,人類使用視覺的輔助線可以高效快速地解決問題,但是若使用純文字的解法需要更多的邏輯推理。
8月,021 LSM亮相2025年人工智能向善全球峰會(huì),吸引了全球參觀者的目光,大家對(duì)這個(gè)“理科生”模型感到好奇——它與通用大語(yǔ)言模型究竟有什么不同,非英語(yǔ)母語(yǔ)者能否用它來(lái)解決科研問題?
了解科學(xué)家的共性、加深對(duì)科學(xué)問題的理解、覆蓋更系統(tǒng)全面的科學(xué)領(lǐng)域知識(shí)……“還有太多太多的科學(xué)問題等待著我們?nèi)グl(fā)現(xiàn)和解決?!毖F榮感慨。
中國(guó)工程院院士、之江實(shí)驗(yàn)室主任王堅(jiān)曾說:“基礎(chǔ)模型是人工智能的皇冠,是人工智能發(fā)展的技術(shù)底座?!被A(chǔ)模型突破帶來(lái)的將是巨大的想象空間。
“或許以后能發(fā)一個(gè)火箭派一堆機(jī)器人去外太空做實(shí)驗(yàn)?!毖F榮暢想,“只要有電的地方,人工智能就能工作,地底下也是一樣。機(jī)器人就能夠完成一系列的科學(xué)實(shí)驗(yàn)。而人作為指揮者,要思考的是未來(lái)的問題?!?/p>
這并非空想。王堅(jiān)近期在接受媒體采訪時(shí)分享了一位美國(guó)高中生發(fā)現(xiàn)未知天體的故事:馬特奧·帕茲是一名18歲的美國(guó)高中生,他借助人工智能技術(shù),在美國(guó)航空航天局積累的2000億條觀測(cè)數(shù)據(jù)中,發(fā)現(xiàn)了150萬(wàn)個(gè)此前未被發(fā)現(xiàn)的天體。那些藏在數(shù)據(jù)洪流里的異常信號(hào),曾讓專業(yè)團(tuán)隊(duì)望而卻步,卻被模型敏銳捕捉——這恰是科學(xué)基礎(chǔ)模型的神奇之處:它能讓人類突破專業(yè)壁壘與認(rèn)知邊界,實(shí)現(xiàn)從前不敢想象的科學(xué)發(fā)現(xiàn),即便發(fā)現(xiàn)者并非該領(lǐng)域的科研工作者,也能叩開未知世界的大門。
現(xiàn)在,之江實(shí)驗(yàn)室太空計(jì)算星座已經(jīng)能讓人工智能直接在軌處理遙感數(shù)據(jù),不用把圖片傳回地球。深地探測(cè)、新藥研發(fā)……未來(lái),這些曾依賴“人海戰(zhàn)術(shù)”的領(lǐng)域,或許會(huì)因?yàn)榭茖W(xué)基礎(chǔ)模型的加入而加速突破。而當(dāng)科學(xué)基礎(chǔ)模型深度嵌入材料、生物等產(chǎn)業(yè)創(chuàng)新鏈條,高效調(diào)用、深度分析海量科學(xué)知識(shí)和數(shù)據(jù)背后的聯(lián)系,或許將從根本上重塑產(chǎn)業(yè)發(fā)展格局。
就像望遠(yuǎn)鏡延伸了人類的視野、顯微鏡擴(kuò)大了人類的微觀世界,科學(xué)基礎(chǔ)模型正在延伸人類的“思維”。它不是要取代科學(xué)家,而是要成為那個(gè)“最懂科學(xué)家”的搭檔——幫你算公式、畫圖紙、找規(guī)律,讓人類能更自由地探索那些“想都不敢想”的未知。
就像薛貴榮在采訪的尾聲,俏皮的那一下:“讓世界換一種玩法,還挺有趣的?!?/p>