情吕国产一区二区三区,欧美婷婷久久五月精品三区

記者俞陶然

上海人工智能實驗室昨天公布了多名“AI考生”參加今年中國高考的成績，阿里Qwen2-72B、GPT-4o和“書生·浦語”2.0文曲星（InternLM2-20BWQX）成為前三名，得分率均超過70%。大部分“AI考生”在語文、英語科目上表現(xiàn)良好，但數(shù)學(xué)成績不盡如人意。其中，“書生·浦語”2.0文曲星獲得數(shù)學(xué)最高分，超越包括GPT-4o在內(nèi)的其他大模型。

大模型數(shù)學(xué)成績不及格

今年高考結(jié)束后，司南評測體系OpenCompass選取6個開源大模型和GPT-4o，開展了語文、數(shù)學(xué)、英語全卷能力測試，評測采用全國新課標(biāo)I卷。成績由具有高考評卷經(jīng)驗的教師人工評判，接近真實閱卷的標(biāo)準(zhǔn)。

這六個大模型分別是阿里巴巴開源的Qwen2-57B和Qwen2-72B、上海人工智能實驗室開源的“書生·浦語”2.0文曲星、智譜AI開源的GLM-4-9B、零一萬物開源的Yi-1.5-34B、法國企業(yè)Mistral開源的Mixtral 8x22B。由于無法確定閉源大模型的更新時間，為公平起見，此次評測沒有納入商用閉源模型，只引入GPT-4o作為評測參考。

因為受測的開源模型均為大語言模型，在評測過程中，僅輸入文字題干（數(shù)學(xué)包含2道帶圖試題），英語聽力部分（分值30分）不納入此次評測。結(jié)果，阿里Qwen2-72B以總分303分排名第一，其中語文124分（滿分150分），數(shù)學(xué)70分（滿分150分），英語109分（滿分120分）；GPT-4o以總分296分位居第二，其中語文111.5分，數(shù)學(xué)73分，英語111.5分；“書生·浦語”2.0文曲星以0.5分之差排名第三，其中語文112分，數(shù)學(xué)75分，英語108.5分。

可以看到，“AI考生”前三名都擅長文科，語文和英語成績優(yōu)良，而數(shù)學(xué)推理能力有待提升，高考數(shù)學(xué)成績都不及格。目前，數(shù)學(xué)是所有大模型的短板，得益于上海人工智能實驗室在數(shù)學(xué)推理上的投入，“書生·浦語”2.0文曲星在高考中得到75分，在所有受測模型中位居榜首，但仍存在較大提升空間。

閱卷老師點評考生表現(xiàn)

與以往多采用高考客觀題評測大模型的方式不同，在此次測試中，研究團隊使用了語數(shù)外三科的全卷試題，既有選擇、填空等“答案唯一性”題目，也包括簡答、閱讀理解、作文等主觀題，在更接近真實高考的環(huán)境中測試模型的能力。

為貼近高考評卷模式，研究團隊邀請多位有閱卷經(jīng)驗的高中教師對主觀題答案評分，每份考卷至少由3人分別打分。遇到評分懸殊的情況，老師們會進行復(fù)核，盡量做到評分公正，為人工智能學(xué)術(shù)界和產(chǎn)業(yè)界提供更有價值的參考指標(biāo)。與真實的高考一樣，所有大模型答卷均進行了匿名處理，避免閱卷教師產(chǎn)生“先入為主”的觀念。

對于這些“AI考生”的語數(shù)外水平，老師們給出了中肯的評價——語文評卷顯示，大模型的現(xiàn)代文閱讀理解能力普遍較強，但不同模型的文言文閱讀理解能力差距較大。大模型寫的作文更像問答題，雖有針對性，但缺乏修飾，幾乎不用人類考生都會使用的舉例論證、引用論證、名人名言等手法。多數(shù)大模型不理解“本體”“喻體”“暗喻”等語文概念。對于文章中的一些“潛臺詞”，大模型也無法完全理解。數(shù)學(xué)評卷顯示，大模型的主觀題回答相對凌亂，解題過程有迷惑性，甚至出現(xiàn)過程錯誤但得到正確答案的情況。大模型的公式記憶能力很強，但無法在解題過程中靈活運用。大模型的英語整體表現(xiàn)良好，大模型寫的英語作文普遍存在因超出字數(shù)限制被扣分的情況，而人類考生大多因為字數(shù)不夠被扣分。

聲明：本媒體部分圖片、文章來源于網(wǎng)絡(luò)，版權(quán)歸原作者所有，如有侵權(quán)，請聯(lián)系刪除：025-84707368，廣告合作：025-84708755。

成人免费AV网址|亚洲手机免费在线|最新av网址发布|67194成人草|在线国产视频91|一区二区无码竹菊|91国产精品综合|日本熟女综合视频|国产免费强奸视频|最近中文字幕99

上海

AI“高考” 語文、英語表現(xiàn)良好數(shù)學(xué)成績不盡如人意

上海

AI“高考” 語文、英語表現(xiàn)良好 數(shù)學(xué)成績不盡如人意

AI“高考” 語文、英語表現(xiàn)良好數(shù)學(xué)成績不盡如人意