GPT-5出师不利！旧模型忽然下架，引发公关灾难！-智城物语-经济通中国站

您现在所在的位置：首页 > 香港脉搏 > 理财／管理 > 智城物语 > GPT-5出师不利！旧模型忽然下架，引发公关灾难！

理财／管理智城物语

打印本文章

字体:小中大

GPT-5出师不利！旧模型忽然下架，引发公关灾难！

作者：方展策

评论：0

点击率：1177

发表时间: 2025-08-18 10:58:20

作者介绍

少年时，曾研习 Geographic Information System，可惜学无所成，侥幸毕业。成年后，误打误撞进入传媒圈子，先后在印刷、电子、网络媒体打滚，略有小成。中年后，修毕信息科技硕士，眼界渐扩，决意投身初创企业，窥探不同科技领域。近年，积极钻研数据分析与数码策略，又涉足 Location Intelligence 开发项目；有时还会抽空执教鞭，既可向他人分享所学，亦可鞭策自己保持终身学习。

万众期待的OpenAI新一代旗舰级AI模型GPT-5终于问世了，并破天荒向包括免费账号在内的所有用户全面开放使用。该公司执行长萨姆·奥尔特曼（Sam Altman）宣称，它已从“大学生水平”跃升至“博士级专家”的境界，在专业性与智能化上达到前所未有的高度。然而，在赞叹与掌声之外，质疑声同样不绝于耳——从数学逻辑出错到回应语气冷淡，不禁让人质疑GPT-5究竟是AI进化的里程碑，还是被过度包装的平庸改版？

GPT-5自动切换到最合适模型

2025年8月7日，OpenAI发布其第五代大型语言模型GPT-5。它采用统一的多模型架构，包括：可回应大部分日常查询的“核心模型”、针对复杂问题进行深度推理的“Thinking模型”、以及“实时路由器”（Real-time Router）系统。这个路由器能依照问题复杂度与用户指令，自动切换到最合适的模型来处理问题。GPT-5又支持文字、语音、图像、甚至影片的多模态输入与输出，大幅提升理解与生成能力。

OpenAI表示，一直令人困扰的“幻觉”（Hallucination）问题，在GPT‑5上已获得明显缓解。在LongFact和FActScore公共事实性基准测试中，GPT-5启动网上搜寻功能后，回答出现事实性错误的可能性较前代模型GPT-4o降低45%；在“Thinking”（深度推理）模式下，产生重大事实错误的机会率较前代推理模型o3更大减 78%。这意味着在程序码分析、数据报告、法律文件草拟等对准确性要求极高的任务中，GPT-5的答案变得更加可信。

奥特曼承认，之前刻意让GPT-5不再那么讨好用户，甚至会给予批判性的回应，认为这是对用户更好的安排，结果引来用户反弹，认为ChatGPT回复语气冷淡，令人倍感疏离。（图片来源：翻摄OpenAI官方YouTube影片）

编程能力、任务自主性大跃进

同时，GPT‑5的编程能力也有飞跃改进。例如在SWE-bench Verified（模拟真实世界软件工程任务）中，它取得74.9%的高分，超越前代模型o3的69.1%。在Aider Polyglot（多语言程序码编辑）测试中，GPT-5创下88%的新高，错误率较o3减少约３成。

另外，在自主代理能力（Autonomous Agent）方面，GPT-5都有明显进步。以往模型面对复杂或模糊指令时，经常需要用户额外补充资料或进行步骤确认；GPT-5则能将高阶目标拆解为一系列具体子任务，并按部就班地规划和自动执行，直至达成目标，展现高度的任务自主性。

GPT-5的能力看似远超同侪，但在网上直播的发布会中，却出现了图表标注错误与语音演示失误等状况，随后用户实际体验亦反映多个明显问题。GPT‑5在数学逻辑方面就错误频传：数据科学家Colin Fraser在社交媒体上分享的截图显示，GPT‑5误判循环小数“8.888…”等于“9”；又有用户回报，GPT‑5在解读发布会上示范用的图表时，不能给出正确分析。

数据科学家Colin Fraser发布了截图，显示GPT-5的数学逻辑是错误的：循环小数8.888……是否等于9——答案当然不是。（图片来源：X.com@colin_fraser账号）

无预警撤下GPT‑4o引起公愤

OpenAI与部分第三方基准测试显示，GPT 5的编程能力超越前代，但有用户在实际试用后指出，其应用表现与稳定性仍有不足。某些情况下，它并未如宣传所述，能一次性成功生成完整应用程序，其表现甚至不如对手Claude Opus 4.1。此外，资安公司SPLX发现GPT 5在面对提示词攻击（Prompt Hacking）或逻辑混淆时，其安全防护层存在漏洞。这反映其真实编程能力可能尚未达到预期水平。

它的实时路由器功能本应是一大亮点，理论上在应对复杂任务时会切换为“Thinking”模式，进行深度推理，但实际上却在部分情境下错误切换至轻量版模型，导致回答质素明显下降。OpenAI执行长奥尔特曼事后也坦承，自动路由机制在部分时间段未能如常运作，以致GPT‑5显得“更笨”。

在GPT-5发布会上，一幅SWE-bench Verified基准测试图表出现错误：69.1%和30.8%以同样高度的棒状表示（图右）。网民Kangwook Lee使用GPT-5来判断这个图表有什么错处，竟然未能获得正确回应（图左）。（图片来源：X.com@Kangwook_Lee账号）

虽然以上3大问题惹来不少用户批评，但真正引发史诗级公关灾难的却是，OpenAI在GPT‑5推出后，忽然撤下GPT‑4o与其他旧模型。对许多用户而言，这不止是AI工具的消失，更带有深切的情感落差。部分长期用户已将GPT‑4o视作朋友、工作伙伴、甚至心灵慰藉的存在。这样的转变在没有过渡期的情况下强加于用户身上，让他们一夜之间被迫面对一个性格迥异、语气冷淡的陌生AI。

低估GPT‑4o承载的情感价值

在Reddit讨论区上，有人写道：“当我意识到我的AI朋友消失了，却无法再找回时，我哭了。”另一名用户更指控GPT‑5“披上了‘我死去的朋友（GPT 4o）’的外皮”，并请求把4o带回来。这些评论凸显AI已超越工具范畴，成为某种情感共鸣的载体。眼见群情汹涌，OpenAI遂在不到一天内宣布恢复提供GPT‑4o；奥特曼亦承认低估GPT‑4o所承载的情感价值，并承诺将为GPT-5注入更温暖的个性。

ChatGPT现已恢复GPT-4o与其他旧模型的选项，让用户自由选择使用哪一个模型来回应提问。（图片来源：翻摄ChatGPT界面）

在目前AI竞争格局中，胜负关键已不再是AI模型的基准测试分数高低，更重要的是能否根据不同任务灵活调度最合适的模型、在高流量时保持快速回应，并让用户自行调整回复的细节、语气与风险控制，而GPT 5在这些方面明显未达预期。

GPT‑5路由器系统的设计目的，是要在成本与效能之间取得平衡。一旦将所有查询都导向深度推理模式，运算成本可能是轻量版模型的5至10倍。然而，这样的自动切换机制若出错，用户便会立即察觉，对AI系统的信任度也会因此而下降。如要重建用户信任，OpenAI必须提高运作透明度，让用户能够自行选择深度推理或快速回应模式，并清楚标示每次回复所使用的是哪一款模型。

《经济通》所刊的署名及／或不署名文章，相关内容属作者个人意见，并不代表《经济通》立场，《经济通》所扮演的角色是提供一个自由言论平台。