記者 俞陶然
昨天,上海人工智能實驗室向社會用戶開放了實驗室開發(fā)的“書生·浦語”大模型,并在這個大模型界面上發(fā)布了強推理模型InternThinker(書生思想者)。InternThinker模型具有長思維能力,并能在推理過程中進行反思和糾正,從而在數(shù)學、代碼、推理謎題等多種復雜推理任務上取得更優(yōu)結果。
據(jù)介紹,上海人工智能實驗室一直在開展強推理模型的原創(chuàng)研究,探索出一條高效構建高質(zhì)量思維鏈的路徑。在訓練數(shù)據(jù)側,實驗室在國內(nèi)率先開發(fā)出大規(guī)模合成數(shù)據(jù)技術;在任務場景側,InternThinker模型在數(shù)學、代碼、推理謎題等多種場景中,都能展現(xiàn)出較強的推理能力,并具備一定的任務泛化性。
實驗室研發(fā)團隊采用了更接近人類學習方式的路徑,設計了一系列“元動作”來引導模型解決問題的過程,如對問題的理解、知識回憶、規(guī)劃、執(zhí)行、反思、總結等。InternThinker在面對復雜任務時,會動態(tài)地選擇“元動作”,再進一步展開相關動作的具體思維過程。
此外,研究人員還針對專業(yè)任務構建了大規(guī)模的沙盒環(huán)境,為可形式化驗證的推理任務提供反饋信號。通過自動化專家模型、人機協(xié)同策略生成等方法,他們構建了50種以上不同邏輯思維方式的推理任務思考過程,將執(zhí)行專業(yè)任務的能力融合到InternThinker中。
公眾可登錄“書生·浦語”大模型網(wǎng)頁版(https://internlm-chat.intern-ai.org.cn)體驗。