
首个智能模型高考评测结果揭晓
近期公布的智能模型高考全科测试结果显示,在总分420分的语数英三科综合测评中,各型号表现呈现明显差异。阿里研发的通义千问2-72B版本以303分的成绩位居榜首,GPT-4o以微弱差距位列第二,文曲星-20B则获得季军席位。
测试概况
本次测评由OpenCompass研究平台组织实施,共选取七款主流智能模型参与全程测试。值得注意的是,在数学科目考核中,所有参评模型均未达到及格标准,这反映出当前智能系统在逻辑推理与复杂运算方面仍存在提升空间。语文与英语科目的测评则显示出各模型在语言理解与文本生成能力上的不同特点。
性能分析
从测试数据来看,通义千问2-72B在语言类科目中保持稳定发挥,其文本处理能力获得较好评价。GPT-4o在英语理解方面展现出独特优势,而文曲星-20B则在特定题型中表现亮眼。研究人员指出,这类综合测评有助于客观评估智能系统的实际应用能力,为后续技术优化提供重要参考依据。
分享地址:
https://github.com/open-compass/GAOKAO-Eval
泡玩网