OpenAI发布GPT-5.4 mini与nano,以更低成本逼近旗舰模型性能

客服微996438433个月前财经知识19

OpenAI周二推出旗下迄今能力最强的两款小型模型GPT-5.4 mini与GPT-5.4 nano,以更低延迟和更低成本大幅缩小与旗舰模型的性能差距。

GPT-5.4 mini在编程、推理、多模态理解及工具调用等核心维度全面超越上一代GPT-5 mini,运行速度提升逾2倍,并在SWE-Bench Pro等基准测试中接近体量更大的GPT-5.4。

GPT-5.4 nano则定位成本最低、延迟最短的轻量选项,仅通过API向开发者开放,专为数据分类、提取及简单编程子任务设计。

OpenAI发布GPT-5.4 mini与nano,以更低成本逼近旗舰模型性能__OpenAI发布GPT-5.4 mini与nano,以更低成本逼近旗舰模型性能

两款模型的推出,意在填补大模型在实时交互场景中因延迟过高而难以落地的空白,直接影响覆盖编程助手、AI代理系统及多模态应用等快速增长的商业市场。

mini面向消费端,nano专属API

GPT-5.4 mini今日起在OpenAI API、Codex平台及ChatGPT三大渠道同步上线。

GPT-5.4 mini的API定价为每百万输入token 0.75美元、每百万输出token 4.50美元,支持文本与图像输入、工具调用、函数调用、网页搜索、文件检索、计算机操控及技能扩展,上下文窗口达40万token。

在Codex平台,GPT-5.4 mini仅消耗GPT-5.4配额的30%,开发者处理简单编程任务的成本约降至旗舰模型的三分之一。Codex还支持将工作量委派给以GPT-5.4 mini运行的子智能体,使推理密度较低的任务自动落入更廉价的模型。

在ChatGPT端,Free与Go用户可通过"+"菜单选择"Thinking"功能使用GPT-5.4 mini;其余付费用户在GPT-5.4 Thinking触达速率上限后,该模型将作为自动降级备选项启用。

GPT-5.4 nano目前仅通过API供开发者调用,定价为每百万输入token 0.20美元、每百万输出token 1.25美元,为两款新模型中定价最低者。OpenAI表示,nano适合由高阶模型统筹调度、负责处理次要支撑任务的子智能体场景。

OpenAI发布GPT-5.4 mini与nano,以更低成本逼近旗舰模型性能_OpenAI发布GPT-5.4 mini与nano,以更低成本逼近旗舰模型性能_

mini逼近旗舰,nano超越前代

从OpenAI公布的评测数据来看,GPT-5.4 mini在编程及多模态任务上的表现尤为突出。

在编程基准SWE-bench Pro上,mini得分54.4%,与GPT-5.4的57.7%差距收窄至3.3个百分点,远高于GPT-5 mini的45.7%。

OpenAI发布GPT-5.4 mini与nano,以更低成本逼近旗舰模型性能_OpenAI发布GPT-5.4 mini与nano,以更低成本逼近旗舰模型性能_

在计算机操控基准OSWorld-Verified上,mini以72.1%逼近GPT-5.4的75.0%,并大幅领先GPT-5 mini的42.0%。

OpenAI发布GPT-5.4 mini与nano,以更低成本逼近旗舰模型性能_OpenAI发布GPT-5.4 mini与nano,以更低成本逼近旗舰模型性能_

工具调用能力方面,GPT-5.4 mini在τ2-bench电信测试中得分93.4%,较GPT-5 mini的74.1%提升显著。在通用智能测试GPQA Diamond中,mini得分88.0%,nano亦达82.8%,均超越GPT-5 mini的81.6%。

_OpenAI发布GPT-5.4 mini与nano,以更低成本逼近旗舰模型性能_OpenAI发布GPT-5.4 mini与nano,以更低成本逼近旗舰模型性能

值得关注的是,GPT-5.4 nano在部分视觉任务中表现落后于GPT-5 mini,OSWorld-Verified得分39.0%低于后者的42.0%。但在编程及工具调用类任务上,nano仍较前代实现明显提升。

OpenAI发布GPT-5.4 mini与nano,以更低成本逼近旗舰模型性能__OpenAI发布GPT-5.4 mini与nano,以更低成本逼近旗舰模型性能

OpenAI表示,nano的设计优先级在于低延迟与低成本,而非全面性能,开发者在选型时需结合具体任务权衡取舍。

子智能体架构,多模型协作成产品设计新范式

OpenAI在发布材料中着重强调了两款新模型在多模型分层系统中的位置。

以其自研编程助手Codex为例,GPT-5.4负责规划、协调与最终判断,而GPT-5.4 mini子智能体则并行处理代码库检索、大文件审阅及辅助文档处理等粒度更细的子任务。

OpenAI表示,随着小型模型速度更快、功能更强大,开发者无需使用单一模型处理所有任务,而是可以构建系统,由大型模型负责决策,小型模型则快速大规模地执行任务。OpenAI称:

GPT-5.4 mini 是我们迄今为止针对这种工作流程最强大的小型模型。

这一架构对高并发的工作尤为关键,在编程助手、截图解析及实时图像理解等场景中,响应延迟直接影响产品体感,最优选择往往不是能力最强的模型,而是能够在速度、工具可靠性与任务表现之间取得最佳平衡的模型。

对开发者而言,GPT-5.4 mini与nano的发布意味着在不牺牲系统整体智能水平的前提下,大幅压降推理成本的路径进一步清晰。

相关文章

Grok 4遥遥领先,但马斯克想要得更多

Grok 4遥遥领先,但马斯克想要得更多

Grok4真的很强 近期马斯克发布了“世界上最强的AI模型”,有人直言道AGI在这里已经实现了。xAI 发布了两个版本,分别是 Grok 4 和 Grok 4 Heavy。两者都是推理模型,前者是...

营收增近50%却亏11亿元,昆仑万维钱花哪了

营收增近50%却亏11亿元,昆仑万维钱花哪了

营收持续增长,海外市场高歌猛进,AI模型密集迭代,商业化路径逐渐清晰——昆仑万维2025年上半年的成绩单,看起来充满进取的节奏感。 其最新半年报显示,公司上半年实现营收37.33亿元,同比增长49.2...

谷歌Gemini 3模型获市场认可,Alphabet股价一度大涨超6%创新高

谷歌Gemini 3模型获市场认可,Alphabet股价一度大涨超6%创新高

Alphabet股价周三飙升5%,投资者看好谷歌最新发布的Gemini 3人工智能模型带来的竞争优势。 周二华尔街见闻提及,谷歌正式发布备受期待的AI模型Gemini 3,并于发布首日立即在谷歌搜索、...

Meta"分割一切"模型强势升级!"听懂人话",处理含上百物体一张图仅需30毫秒

Meta"分割一切"模型强势升级!"听懂人话",处理含上百物体一张图仅需30毫秒

美东时间19日周三,Meta发布第三代"分割一切"模型Segment Anything Models(SAM)——SAM 3,实现了重大突破,首次支持用户通过自然语言描述和图像示例来识别、分割和追踪视...

但不到24小时,ChatGPT 重新引入了 4o 作为选项,OpenAI为何突然“回头了”?

但不到24小时,ChatGPT 重新引入了 4o 作为选项,OpenAI为何突然“回头了”?

8月8日凌晨,OpenAI 如约推出GPT-5,当晚直播频道热火如荼,模型跑分迅速刷屏了各大媒体平台。 但不到24小时,ChatGPT 重新引入了 4o 作为选项,OpenAI为何突然“回头了”? O...

史上最强编程模型Claude 5泄露,最慌的是黄仁勋?

史上最强编程模型Claude 5泄露,最慌的是黄仁勋?

2月2日,X上一位的知名AI博主Pankaj Kumar (@pankajkumar_dev),爆料了Anthropic的下一代旗舰模型Claude Sonnet 5。 这个模型代号为“Fenne...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。
客服微信:BT86616点击复制并跳转微信