記者 俞陶然
上海人工智能實(shí)驗(yàn)室昨天聯(lián)合崖州灣國(guó)家實(shí)驗(yàn)室和中國(guó)農(nóng)業(yè)大學(xué),發(fā)布了我國(guó)首個(gè)種業(yè)大語(yǔ)言模型“豐登”(SeedLLM)。在上海人工智能實(shí)驗(yàn)室研發(fā)的大語(yǔ)言模型“書(shū)生·浦語(yǔ)”2.0基礎(chǔ)上,科研團(tuán)隊(duì)輸入了科技文獻(xiàn)、產(chǎn)業(yè)實(shí)踐報(bào)告等海量專業(yè)數(shù)據(jù),訓(xùn)練出具有強(qiáng)大理解和分析能力的種業(yè)大模型。它能降低育種領(lǐng)域的學(xué)習(xí)門(mén)檻,提升從業(yè)人員的研究和實(shí)踐效率,也為“人工智能+生物育種”開(kāi)辟了探索路徑,將為我國(guó)糧食安全提供科技支撐。
科研團(tuán)隊(duì)介紹,科學(xué)高效的生物育種對(duì)糧食安全和經(jīng)濟(jì)效益意義重大,但由于作物和畜類品種的多樣性,育種信息一直缺乏統(tǒng)一的平臺(tái),數(shù)據(jù)知識(shí)呈現(xiàn)出“孤島式”分布,給育種知識(shí)普及造成了壁壘。同時(shí),由于生物育種涉及生物學(xué)、遺傳學(xué)、氣象學(xué)、土壤學(xué)等多學(xué)科交叉,專業(yè)人員在從事育種工作時(shí)不得不查閱眾多領(lǐng)域的文獻(xiàn)和數(shù)據(jù),甚至需要編寫(xiě)代碼進(jìn)行數(shù)據(jù)訪問(wèn),工作效率受到很大限制。
為此,上海人工智能實(shí)驗(yàn)室聯(lián)合團(tuán)隊(duì)提出了大模型賦能生物育種這一思路,把“豐登”訓(xùn)練成具有“AI研究員”潛力的大模型。它可通過(guò)自主學(xué)習(xí),發(fā)掘生物、遺傳、氣象和土壤間的復(fù)雜關(guān)聯(lián),形成新的知識(shí)結(jié)構(gòu)。育種領(lǐng)域涉及的知識(shí)資源包含學(xué)術(shù)文獻(xiàn)、田間日志和政府公示等,呈分散狀態(tài)。針對(duì)這種情況,科研人員對(duì)相關(guān)知識(shí)進(jìn)行了深度挖掘,將文本信息中提煉出的知識(shí)匯聚到模型權(quán)重中,再將分散在不同文獻(xiàn)中的同一知識(shí)點(diǎn)進(jìn)行整合歸納,最終使育種專業(yè)知識(shí)以結(jié)構(gòu)化的方式呈現(xiàn)。
經(jīng)聯(lián)合攻關(guān),這個(gè)大模型已具備品種選育、農(nóng)藝性狀、栽培技術(shù)、推廣區(qū)域等4個(gè)領(lǐng)域的解釋和回答能力。它采用自然語(yǔ)言對(duì)話接口,用戶可直接提出問(wèn)題,并獲得易于理解的信息。
種業(yè)領(lǐng)域的標(biāo)準(zhǔn)化人工評(píng)估評(píng)測(cè)顯示,這個(gè)大模型在最佳答案?jìng)€(gè)數(shù)和綜合分?jǐn)?shù)上的表現(xiàn)超出預(yù)期,超越了業(yè)界公認(rèn)的高性能大模型Claude 3和GPT-4,其綜合得分是相關(guān)專業(yè)本科生的4.87倍。目前,隆平高科、正大集團(tuán)、中國(guó)科學(xué)院、中國(guó)農(nóng)業(yè)科學(xué)院、上海市農(nóng)業(yè)科學(xué)院、廣東省農(nóng)業(yè)科學(xué)院、華中農(nóng)業(yè)大學(xué)、華南農(nóng)業(yè)大學(xué)、復(fù)旦大學(xué)等單位已加入“豐登”測(cè)試。