Gemini 3中文测评结果发布:首超GPT-5 全球第二

简介:SuperCLUE 9月中文大模型基准测评显示,谷歌Gemini-3-Pro-Preview以70.80分位列全球第二,领先GPT-5(high) 1.43分,落后GPT-5.1(high) 1.71分;Gemini-2.5-Pro居第七。新模型推理效率微升至31.9秒/题,成本升至32.0元/百万Tokens。测评覆盖数学推理、科学推理、代码生成、智能体Agent、幻觉控制、精确指令遵循六维度,

2025年末全球AI竞技场再掀波澜,测评机构SuperCLUE最新报告显示:谷歌Gemini-3-Pro-Preview在SuperCLUE 9月中文大模型基准测评中获得了70.80的总分。

它超越 GPT-5(high) 1.43 分,较GPT-5.1(high)落后1.71分,位居全球第二。Gemini-2.5-Pro目前排名全球第七。

Gemini 3中文测评结果发布:首超GPT-5 全球第二

Gemini-3-Pro-Preview的推理效率相较于Gemini-2.5-Pro有些许提升,从平均每题花费32.2秒降低到31.9秒。推理成本从24.5元/百万Tokens上升到32.0元/百万Tokens。

据了解,本次测评覆盖六大核心维度,数学推理、科学推理、代码生成(含web开发)、智能体Agent(多轮工具调用)、幻觉控制、精确指令遵循。

与GPT-5.1(high)相比,Gemini-3-Pro-Preview的优势集中体现在幻觉控制,科学推理旗鼓相当,而在其他四个方面全面落败。

Gemini 3中文测评结果发布:首超GPT-5 全球第二


扫一扫在手机打开当前页
文章二维码