成人免费AV网址|亚洲手机免费在线|最新av网址发布|67194成人草|在线国产视频91|一区二区无码竹菊|91国产精品综合|日本熟女综合视频|国产免费强奸视频|最近中文字幕99

上海

首頁>地方頻道>上海>要聞

AI“高考” 語文、英語表現(xiàn)良好 數(shù)學成績不盡如人意

  記者 俞陶然

  上海人工智能實驗室昨天公布了多名“AI考生”參加今年中國高考的成績,阿里Qwen2-72B、GPT-4o和“書生·浦語”2.0文曲星(InternLM2-20BWQX)成為前三名,得分率均超過70%。大部分“AI考生”在語文、英語科目上表現(xiàn)良好,但數(shù)學成績不盡如人意。其中,“書生·浦語”2.0文曲星獲得數(shù)學最高分,超越包括GPT-4o在內的其他大模型。

  大模型數(shù)學成績不及格

  今年高考結束后,司南評測體系OpenCompass選取6個開源大模型和GPT-4o,開展了語文、數(shù)學、英語全卷能力測試,評測采用全國新課標I卷。成績由具有高考評卷經驗的教師人工評判,接近真實閱卷的標準。

  這六個大模型分別是阿里巴巴開源的Qwen2-57B和Qwen2-72B、上海人工智能實驗室開源的“書生·浦語”2.0文曲星、智譜AI開源的GLM-4-9B、零一萬物開源的Yi-1.5-34B、法國企業(yè)Mistral開源的Mixtral 8x22B。由于無法確定閉源大模型的更新時間,為公平起見,此次評測沒有納入商用閉源模型,只引入GPT-4o作為評測參考。

  因為受測的開源模型均為大語言模型,在評測過程中,僅輸入文字題干(數(shù)學包含2道帶圖試題),英語聽力部分(分值30分)不納入此次評測。結果,阿里Qwen2-72B以總分303分排名第一,其中語文124分(滿分150分),數(shù)學70分(滿分150分),英語109分(滿分120分);GPT-4o以總分296分位居第二,其中語文111.5分,數(shù)學73分,英語111.5分;“書生·浦語”2.0文曲星以0.5分之差排名第三,其中語文112分,數(shù)學75分,英語108.5分。

  可以看到,“AI考生”前三名都擅長文科,語文和英語成績優(yōu)良,而數(shù)學推理能力有待提升,高考數(shù)學成績都不及格。目前,數(shù)學是所有大模型的短板,得益于上海人工智能實驗室在數(shù)學推理上的投入,“書生·浦語”2.0文曲星在高考中得到75分,在所有受測模型中位居榜首,但仍存在較大提升空間。

  閱卷老師點評考生表現(xiàn)

  與以往多采用高考客觀題評測大模型的方式不同,在此次測試中,研究團隊使用了語數(shù)外三科的全卷試題,既有選擇、填空等“答案唯一性”題目,也包括簡答、閱讀理解、作文等主觀題,在更接近真實高考的環(huán)境中測試模型的能力。

  為貼近高考評卷模式,研究團隊邀請多位有閱卷經驗的高中教師對主觀題答案評分,每份考卷至少由3人分別打分。遇到評分懸殊的情況,老師們會進行復核,盡量做到評分公正,為人工智能學術界和產業(yè)界提供更有價值的參考指標。與真實的高考一樣,所有大模型答卷均進行了匿名處理,避免閱卷教師產生“先入為主”的觀念。

  對于這些“AI考生”的語數(shù)外水平,老師們給出了中肯的評價——語文評卷顯示,大模型的現(xiàn)代文閱讀理解能力普遍較強,但不同模型的文言文閱讀理解能力差距較大。大模型寫的作文更像問答題,雖有針對性,但缺乏修飾,幾乎不用人類考生都會使用的舉例論證、引用論證、名人名言等手法。多數(shù)大模型不理解“本體”“喻體”“暗喻”等語文概念。對于文章中的一些“潛臺詞”,大模型也無法完全理解。數(shù)學評卷顯示,大模型的主觀題回答相對凌亂,解題過程有迷惑性,甚至出現(xiàn)過程錯誤但得到正確答案的情況。大模型的公式記憶能力很強,但無法在解題過程中靈活運用。大模型的英語整體表現(xiàn)良好,大模型寫的英語作文普遍存在因超出字數(shù)限制被扣分的情況,而人類考生大多因為字數(shù)不夠被扣分。

聲明:本媒體部分圖片、文章來源于網絡,版權歸原作者所有,如有侵權,請聯(lián)系刪除:025-84707368,廣告合作:025-84708755。
1260
收藏
分享