GPT-5.2部分基准测试分数超过谷歌 但OpenAI“红色警报”尚未解除 每日热门

2025-12-12 12:59:08 来源:第一财经

拉响“红色警报”应对谷歌竞争后,当地时间12月11日,OpenAI推出了GPT-5.2,包含GPT-5.2 Instant、Thinking和Pro模式,此时距离OpenAI更新GPT-5.1只过去了一个月。


(相关资料图)

此次发布GPT-5.2,被外界视为OpenAI应对谷歌挑战的一次反击。上个月谷歌发布Gemini 3后,在硅谷掀起一场AI权力的重新分配,OpenAI作为大模型霸主的地位受到挑战。

不同于GPT-5.1着重强调具有“情绪价值”、能与人愉快交谈,此次应对挑战,OpenAI拿出了更多“真枪实弹”。GPT-5.2推出了更多智能上的更新,也放出了基准测试的分数。可以看到一些基准测试分数提升明显。

例如,在知识型工作任务GDPval测试中,GPT-5.2Thinking的分数为70.9%,明显超过GPT-5.1的38.8%,在抽象推理ARC-AGI-2基准测试中,GPT-5.2Thinking的分数为52.9%,明显超过GPT-5.1的17.6%。另一些基准测试分数也有提升,在软件工程SWE-Bench Pro、科学问题GPQA Diamond、科学图表类问题CharXiv推理、数学竞赛HMMT测试中,GPT-5.2Thinking的分数为55.6%、92.4%、88.7%、99.4%,GPT-5.1为50.8%、88.1%、80.3%、96.3%。

基于这些能力提升,OpenAI称为专业知识型工作打造的GPT-5.2是公司至今最强的模型,“GPT-5.2在众多基准测试中都刷新了行业水平,例如GDPval测试中,这款模型在涵盖44个职业的明确知识型工作任务中表现超过了行业专家。”

谷歌发布的Gemini 3 Pro此前在基准测试榜单中“屠榜”,OpenAI此次在基准测试榜单中终于扳回一局。

据此前谷歌放出的数据,在ARC-AGI-2测试中,Gemini 3 Pro分数为31.1%,远超GPT-5.1的17.6%,GPQA Diamond测试中,Gemini 3 Pro分数为91.9%,超过GPT-5.1的88.1%,这种明显的能力提升当时引来业内人士预言“未来6个月内很难有公司能超越这一成绩”。此次GPT-5.2在上述两项基准测试中得分终于超过了Gemini 3 Pro。不过,记者留意到,当时谷歌放出的一些分数明显超过OpenAI的基准测试,例如Humanitys Last Exam,此次GPT-5.2并未放出。

OpenAI此次也强调了新模型在专业工作中的可用性,称基准测试得分体现了GPT-5.2在制作演示文稿、电子表格等方面的表现优于或与专业人士持平,生成的电子表格和幻灯片在复杂度和格式呈现上相比前一代有明显提升。不过,用户要使用新的电子表格和演示文稿功能,需要订阅付费套餐。长上下文能力使新模型能处理报告、合同、研究论文等文件。而在编码任务中,GPT-5.2能更可靠地调试生产环境代码、以更少的人工干预完成修复交付。

OpenAI演示了一些编码方面的案例,例如,只需要一个提示,GPT-5.2就能生成一个海浪模拟器、一个节日贺卡生成器。其中,海浪模拟器可以拉动数值,改变风速和海浪高度。OpenAI还强调了GPT-5.2 Thinking的幻觉率低于前一代,在一组去标识的查询中,新模型错误回答的频率比GPT-5.1 Thinking减少了38%。OpenAI称,这意味着在写作、研究、分析和决策中模型犯的错误更少,GPT-5.2 Thinking在图表推理和软件界面理解方面的错误率减少了大约一半。此外,OpenAI称,GPT-5.2 Pro和GPT-5.2 Thinking还是目前最有助于加快科研进展的模型。

GPT-5.2Instant、Thinking和Pro周四在ChatGPT中陆续推出,付费套餐用户将能率先体验。不过,OpenAI应对谷歌等竞争而拉响的“红色警报”,并未随着GPT-5.2的发布而解除。

此前OpenAI CEO山姆·奥尔特曼(Sam Altman)在内部备忘录中承认,随着谷歌等竞争对手的快速进步,公司正面临“氛围紧张”和“经济逆风”的双重挑战。

此次OpenAI则表示,拉响“红色警报”是为了集中资源,是一种明确优先级的方式,公司确实增加了更多与ChatGPT相关的资源。奥尔特曼表示,谷歌发布的Gemini 3对公司的一些指标的影响,比原本预计的更小,但当竞争对手的威胁出现时,应该专注并迅速应对,OpenAI预计在明年1月之前结束“红色警报”状态。

GPT-5.2将不是OpenAI应对竞争抛出的唯一产品,奥尔特曼在社交媒体上表示,下周OpenAI还将送出一些“小小的圣诞礼物”。

关键词: GPT OpenAI 推出 Thinking 基准

相关文章

热文推荐

GPT-5.2部分基准测试分数超过谷歌 但OpenAI“红色警报”尚未解除 每日热门
GPT-5.2部分基准测试分数超过谷歌 但OpenAI“红色警报”尚未解除 每日热门

【GPT-5 2部分基准测试分数超过谷歌但OpenAI“红色警......更多>

冬泳健身-每日速递
冬泳健身-每日速递

12月11日,呼和浩特市青城公园冬泳基地热闹非凡,数十......更多>

九问九答!海南自贸港全岛封关,将带来这些红利
九问九答!海南自贸港全岛封关,将带来这些红利

制作:刘珂君、曹磊、岳小乔、皇甫凌雨[责任编辑:姚亚兵]...更多>

中金:维持科伦博泰生物-B(06990)跑赢行业评级 目标价550港元-今日热文
中金:维持科伦博泰生物-B(06990)跑赢行业评级 目标价550港元-今日热文

智通财经APP获悉,中金发布研报称,考虑到科伦博泰生......更多>

排行推荐

滨江集团:融资净偿还2440.19万元,融资余额3.49亿元(12-11)|焦点信息
滨江集团:融资净偿还2440.19万元,融资余额3.49亿元(12-11)|焦点信息
2025年12月11日滨江集团融资净偿还2440 19万元,融资... 更多>
焦点快播:都体:尤文正在关注被穆帅盛赞的本菲卡17岁左后卫若泽-内托
焦点快播:都体:尤文正在关注被穆帅盛赞的本菲卡17岁左后卫若泽-内托
都体:尤文正在关注被穆帅盛赞的本菲卡17岁左后卫若泽... 更多>
播报:Opera“AI浏览器”Neon上线:月费19.9美元,号称每周都有大变化
播报:Opera“AI浏览器”Neon上线:月费19.9美元,号称每周都有大变化
Opera“AI浏览器”Neon上线:月费19 9美元,号称每周... 更多>
今日播报!万顺瑞强集团(08427.HK)完成配发21.6万股
今日播报!万顺瑞强集团(08427.HK)完成配发21.6万股
格隆汇12月11日丨万顺瑞强集团(08427 HK)公告,董事... 更多>
每日时讯!福石控股:暂不涉及AI眼镜业务
同花顺(300033)金融研究中心12月10日讯,有投资者向... 更多>
2025年我国脱贫攻坚成果持续巩固拓展 每日快报
农业农村部有关负责人表示,我国监测帮扶机制有效运行... 更多>
今日热讯:生意社:2025年12月8日中铝氧化铝现货价格下跌
中国铝业股份有限公司2025年12月10日氧化铝现货价格各... 更多>
最资讯丨巴州区天马山镇琼氏殡葬服务店(个体工商户)成立 注册资本1万人民币
天眼查App显示,近日,巴州区天马山镇琼氏殡葬服务店... 更多>
遭意外围剿!小红书,错在哪?
试水三个月后暂停运营,小红书“小红卡”项目踩刹车。... 更多>
“飞鱼”破浪:16岁少年郑俊鸿的残特奥首金之路_焦点精选
东南网12月10日讯(本网记者薛莞馨原芷晴)他双腿无法... 更多>
生意社:2025年12月9日外盘乙二醇价格微跌
2025年12月9日外盘乙二醇价格如下:乙二醇中国到岸价... 更多>
段永平接受王石访谈:随时准备逃就是在投机,80%以上的散户“牛市”“熊市”都亏钱
红星资本局12月9日消息,近日,步步高创始人、投资人... 更多>
无人机“谁能飞”“谁在飞”?两项强制性国家标准发布
人民网北京12月10日电(记者郝帅)据国家市场监管总局... 更多>
2025年湖南“欢乐潇湘”优秀群众文艺作品展演在长沙举行|每日热门
12月9日拍摄的2025年湖南“欢乐潇湘”优秀群众文艺作... 更多>

热点!涨停雷达:跨境电商+功能沙发

生意社:12月10日内蒙地区萤石市场

视频丨11月中国快递发展指数同比增

经济日报|全面客观看待房地产市场

磷矿石价格高位运行 产业链一体化

中泰证券:软饮料需求景气延续 关

苏州彤兴机械加工有限公司成立 注

每日速看!米塔尔铁路运营准则引主权

防护服龙头名单,收好!(2025/12/9)

每日快讯!闻泰科技邀请荷兰安世股权