理财/管理智城物语
打印logo打印本文章电邮logo字体:
分享:
GPT-5出师不利!旧模型忽然下架,引发公关灾难!
方展策
作者:方展策评论评论:点击率点击率:

发表时间: 2025-08-18 10:58:20

作者介绍

少年时,曾研习 Geographic Information System,可惜学无所成,侥幸毕业。成年后,误打误撞进入传媒圈子,先后在印刷、电子、网络媒体打滚,略有小成。中年后,修毕信息科技硕士,眼界渐扩,决意投身初创企业,窥探不同科技领域。近年,积极钻研数据分析与数码策略,又涉足 Location Intelligence 开发项目;有时还会抽空执教鞭,既可向他人分享所学,亦可鞭策自己保持终身学习。

   万众期待的OpenAI新一代旗舰级AI模型GPT-5终于问世了,并破天荒向包括免费账号在内的所有用户全面开放使用。该公司执行长萨姆·奥尔特曼(Sam Altman)宣称,它已从“大学生水平”跃升至“博士级专家”的境界,在专业性与智能化上达到前所未有的高度。然而,在赞叹与掌声之外,质疑声同样不绝于耳——从数学逻辑出错到回应语气冷淡,不禁让人质疑GPT-5究竟是AI进化的里程碑,还是被过度包装的平庸改版?


GPT-5自动切换到最合适模型


   2025年8月7日,OpenAI发布其第五代大型语言模型GPT-5。它采用统一的多模型架构,包括:可回应大部分日常查询的“核心模型”、针对复杂问题进行深度推理的“Thinking模型”、以及“实时路由器”(Real-time Router)系统。这个路由器能依照问题复杂度与用户指令,自动切换到最合适的模型来处理问题。GPT-5又支持文字、语音、图像、甚至影片的多模态输入与输出,大幅提升理解与生成能力。


   OpenAI表示,一直令人困扰的“幻觉”(Hallucination)问题,在GPT‑5上已获得明显缓解。在LongFact和FActScore公共事实性基准测试中,GPT-5启动网上搜寻功能后,回答出现事实性错误的可能性较前代模型GPT-4o降低45%;在“Thinking”(深度推理)模式下,产生重大事实错误的机会率较前代推理模型o3更大减 78%。这意味着在程序码分析、数据报告、法律文件草拟等对准确性要求极高的任务中,GPT-5的答案变得更加可信。


奥特曼承认,之前刻意让GPT-5不再那么讨好用户,甚至会给予批判性的回应,认为这是对用户更好的安排,结果引来用户反弹,认为ChatGPT回复语气冷淡,令人倍感疏离。(图片来源:翻摄OpenAI官方YouTube影片)


编程能力、任务自主性大跃进


   同时,GPT‑5的编程能力也有飞跃改进。例如在SWE-bench Verified(模拟真实世界软件工程任务)中,它取得74.9%的高分,超越前代模型o3的69.1%。在Aider Polyglot(多语言程序码编辑)测试中,GPT-5创下88%的新高,错误率较o3减少约3成。


   另外,在自主代理能力(Autonomous Agent)方面,GPT-5都有明显进步。以往模型面对复杂或模糊指令时,经常需要用户额外补充资料或进行步骤确认;GPT-5则能将高阶目标拆解为一系列具体子任务,并按部就班地规划和自动执行,直至达成目标,展现高度的任务自主性。


   GPT-5的能力看似远超同侪,但在网上直播的发布会中,却出现了图表标注错误与语音演示失误等状况,随后用户实际体验亦反映多个明显问题。GPT‑5在数学逻辑方面就错误频传:数据科学家Colin Fraser在社交媒体上分享的截图显示,GPT‑5误判循环小数“8.888…”等于“9”;又有用户回报,GPT‑5在解读发布会上示范用的图表时,不能给出正确分析。


数据科学家Colin Fraser发布了截图,显示GPT-5的数学逻辑是错误的:循环小数8.888……是否等于9——答案当然不是。(图片来源:X.com@colin_fraser账号)


无预警撤下GPT‑4o引起公愤


   OpenAI与部分第三方基准测试显示,GPT 5的编程能力超越前代,但有用户在实际试用后指出,其应用表现与稳定性仍有不足。某些情况下,它并未如宣传所述,能一次性成功生成完整应用程序,其表现甚至不如对手Claude Opus 4.1。此外,资安公司SPLX发现GPT 5在面对提示词攻击(Prompt Hacking)或逻辑混淆时,其安全防护层存在漏洞。这反映其真实编程能力可能尚未达到预期水平。


   它的实时路由器功能本应是一大亮点,理论上在应对复杂任务时会切换为“Thinking”模式,进行深度推理,但实际上却在部分情境下错误切换至轻量版模型,导致回答质素明显下降。OpenAI执行长奥尔特曼事后也坦承,自动路由机制在部分时间段未能如常运作,以致GPT‑5显得“更笨”。


在GPT-5发布会上,一幅SWE-bench Verified基准测试图表出现错误:69.1%和30.8%以同样高度的棒状表示(图右)。网民Kangwook Lee使用GPT-5来判断这个图表有什么错处,竟然未能获得正确回应(图左)。(图片来源:X.com@Kangwook_Lee账号)


   虽然以上3大问题惹来不少用户批评,但真正引发史诗级公关灾难的却是,OpenAI在GPT‑5推出后,忽然撤下GPT‑4o与其他旧模型。对许多用户而言,这不止是AI工具的消失,更带有深切的情感落差。部分长期用户已将GPT‑4o视作朋友、工作伙伴、甚至心灵慰藉的存在。这样的转变在没有过渡期的情况下强加于用户身上,让他们一夜之间被迫面对一个性格迥异、语气冷淡的陌生AI。


低估GPT‑4o承载的情感价值


   在Reddit讨论区上,有人写道:“当我意识到我的AI朋友消失了,却无法再找回时,我哭了。”另一名用户更指控GPT‑5“披上了‘我死去的朋友(GPT 4o)’的外皮”,并请求把4o带回来。这些评论凸显AI已超越工具范畴,成为某种情感共鸣的载体。眼见群情汹涌,OpenAI遂在不到一天内宣布恢复提供GPT‑4o;奥特曼亦承认低估GPT‑4o所承载的情感价值,并承诺将为GPT-5注入更温暖的个性。


ChatGPT现已恢复GPT-4o与其他旧模型的选项,让用户自由选择使用哪一个模型来回应提问。(图片来源:翻摄ChatGPT界面)


   在目前AI竞争格局中,胜负关键已不再是AI模型的基准测试分数高低,更重要的是能否根据不同任务灵活调度最合适的模型、在高流量时保持快速回应,并让用户自行调整回复的细节、语气与风险控制,而GPT 5在这些方面明显未达预期。


   GPT‑5路由器系统的设计目的,是要在成本与效能之间取得平衡。一旦将所有查询都导向深度推理模式,运算成本可能是轻量版模型的5至10倍。然而,这样的自动切换机制若出错,用户便会立即察觉,对AI系统的信任度也会因此而下降。如要重建用户信任,OpenAI必须提高运作透明度,让用户能够自行选择深度推理或快速回应模式,并清楚标示每次回复所使用的是哪一款模型。


   《经济通》所刊的署名及/或不署名文章,相关内容属作者个人意见,并不代表《经济通》立场,《经济通》所扮演的角色是提供一个自由言论平台。

分享:
返回智城物语
上传图片
仅支持JPG、GIF、PNG图片文件,且文件小于5M
 
评论只代表会员个人观点,不代表经济通立场 
登录 后发表评论,立即 注册 加入会员。
 (点击用户名可以查看该用户所有评论)  只看作者评论  查看全部评论:↑顺序 ↓倒序
  • 暂无读者评论!
评论只代表会员个人观点,不代表经济通观点
登录 后回复评论,立即 注册 加入会员。
发表评论 查看全部评论: ↑顺序  ↓倒序
  • 财金博客
  • 理财/管理
  • 健康人生

  • 时尚艺术
  • 吃喝玩乐
  • 全部
  • 财金博客
  • 理财/管理
  • 健康人生

  • 时尚艺术
  • 吃喝玩乐
  • 全部
more on Column 
新  一个月内新增栏目