記者 俞陶然
昨天,上海人工智能實(shí)驗(yàn)室向社會用戶開放了實(shí)驗(yàn)室開發(fā)的“書生·浦語”大模型,并在這個大模型界面上發(fā)布了強(qiáng)推理模型InternThinker(書生思想者)。InternThinker模型具有長思維能力,并能在推理過程中進(jìn)行反思和糾正,從而在數(shù)學(xué)、代碼、推理謎題等多種復(fù)雜推理任務(wù)上取得更優(yōu)結(jié)果。
據(jù)介紹,上海人工智能實(shí)驗(yàn)室一直在開展強(qiáng)推理模型的原創(chuàng)研究,探索出一條高效構(gòu)建高質(zhì)量思維鏈的路徑。在訓(xùn)練數(shù)據(jù)側(cè),實(shí)驗(yàn)室在國內(nèi)率先開發(fā)出大規(guī)模合成數(shù)據(jù)技術(shù);在任務(wù)場景側(cè),InternThinker模型在數(shù)學(xué)、代碼、推理謎題等多種場景中,都能展現(xiàn)出較強(qiáng)的推理能力,并具備一定的任務(wù)泛化性。
實(shí)驗(yàn)室研發(fā)團(tuán)隊采用了更接近人類學(xué)習(xí)方式的路徑,設(shè)計了一系列“元動作”來引導(dǎo)模型解決問題的過程,如對問題的理解、知識回憶、規(guī)劃、執(zhí)行、反思、總結(jié)等。InternThinker在面對復(fù)雜任務(wù)時,會動態(tài)地選擇“元動作”,再進(jìn)一步展開相關(guān)動作的具體思維過程。
此外,研究人員還針對專業(yè)任務(wù)構(gòu)建了大規(guī)模的沙盒環(huán)境,為可形式化驗(yàn)證的推理任務(wù)提供反饋信號。通過自動化專家模型、人機(jī)協(xié)同策略生成等方法,他們構(gòu)建了50種以上不同邏輯思維方式的推理任務(wù)思考過程,將執(zhí)行專業(yè)任務(wù)的能力融合到InternThinker中。
公眾可登錄“書生·浦語”大模型網(wǎng)頁版(https://internlm-chat.intern-ai.org.cn)體驗(yàn)。