首頁 » 科技 » 七款 AI 大模型高考成績揭曉：文科過一本線，理科過二本線

七款 AI 大模型高考成績揭曉：文科過一本線，理科過二本線

2024-07-18
四方新聞網

上海，2024年7月18日——上海人工智能實驗室昨日公佈了7個AI大模型參加高考的全科目測試結果。大模型開源開放評測體系“司南”的相關負責人表示，“當前大模型仍存在很大的局限性。組織AI大模型‘參加高考’的目的是評測當前大模型的真實水平，找準問題，持續推進技術進步。”

測試結果和前列模型

測試結果顯示，書生・浦語2.0系列文曲星大模型（浦語文曲星）、阿里通義千問大模型Qwen2-72B以及GPT-4o包攬了文、理科前三甲。這三款AI“考生”的文科成績均超過了一本線，理科成績也超過了二本線（以河南省的高考分數線為參考）。

此外，測試中還包括零一萬物的Yi-1.5-34B、阿里通義千問的Qwen2-57B、智譜的GLM-4-9B以及法國AI初創公司Mistral的Mixtral 8×22B。

評測特徵與公平性保障

據介紹，此次評測具有以下特徵：

全卷考試：進行全卷評分，而不僅僅針對單一題型，包括帶圖的高考題。
考前開源：評測覆蓋的開源模型均為今年高考前開源的模型，排除洩題的可能性。
老師打分：邀請有高考閱卷經驗的老師打分，確保評分與高考儘量一致。
完全公開：生成答案的代碼、模型答卷、評分結果完全開源。

在增加綜合科目的基礎上，Qwen2-72B、GPT-4o、浦語文曲星包攬了文、理科前三甲。阿里通義千問大模型Qwen2-72B以546分的成績榮獲AI高考“文科狀元”，浦語文曲星則以468.5分成為理科第一名，均超過了GPT-4o（文科531分，理科467分）。Mixtral 8×22B的平均得分最低，表現不及國內大模型。