狭路相逢勇者胜！Claude Opus 4.6和GPT 5.3 Codex同时更新

大家好，我是二哥呀。

说实话，看到两家前后脚发布的消息，我第一反应是：这两家不会是商量好了吧？

OpenAI和Anthropic几乎同一时间发布了新一代编程模型——GPT-5.3-Codex和Claude Opus 4.6。

奥特曼这次是真的急了，毕竟Claude Code、Cowork、Clawdbot这三连击下来，OpenAI在企业级软件开发这块儿的压力确实不小。

01、GPT-5.3-Codex

先说OpenAI这边的GPT-5.3-Codex，这次最让我意外的就是那个OSWorld-Verified基准测试的分数。

可能有人不了解这个测试是干啥的，用人话说就是让AI看屏幕截图，然后在虚拟桌面环境里完成各种电脑任务。人类的平均得分大概是72%，你可以把这个理解成一个普通人在电脑前能完成任务的概率。

之前的GPT-5.2-Codex得分是38.2%，说实话这个水平已经挺能打了，毕竟视觉理解和任务执行这两个能力都挺考验硬实力的。但这次GPT-5.3-Codex直接干到了64.7%，提升了整整26.5个百分点。

讲真，这个提升幅度在AI领域简直就是离谱。你知道模型训练到了这个阶段，想提升一两个百分点都得脱层皮，直接暴涨26.5%，这说明OpenAI在架构或者训练方法上肯定搞出了什么新东西。

我还看到个细节，OpenAI官方说完成同等任务所需的令牌量减少了一半，单令牌处理速度还提升了25%。这什么概念？就是又快又省钱，对于企业用户来说，这俩指标比单纯的准确率提升更实在。

除了OSWorld-Verified，GPT-5.3-Codex在其他几个基准测试里也全面碾压前代：SWE-Bench Pro到了57%，TerminalBench 2.0到了76%，网络安全CTF挑战更是拿到了77.6%的准确率，被直接归类为高能力模型。

这波更新后，GPT-5.3-Codex的定位很清晰——就是OpenAI最强AI智能体编程模型，专门用来干那些复杂的、需要长时间推理的软件开发任务。

02、Claude Opus 4.6

再来看看Anthropic这边的Claude Opus 4.6。

说实话，Claude这次的主打方向跟OpenAI不太一样。OpenAI那边是在基准测试分数上狂飙，Claude这边更像是把产品体验做到了极致。

最大的亮点就是100万token的上下文窗口。你如果对这个数字没概念，我给你算笔账：一篇普通的技术博客大概3000字左右，换算成token大概5000个，100万token相当于200篇这样的博客。

或者换个说法，你可以直接把整个中型项目的代码库扔给Claude，让它理解全局架构后再帮你写代码。

这对于需要理解复杂业务场景、涉及多个文件联动的开发任务来说，真的是降维打击。

以前你得分段喂给AI，还得担心它忘了前面的内容，现在一次性把所有上下文都扔进去，它就能像真正熟悉项目的人一样给出建议。

而且Opus 4.6还强调了agentic能力的增强，说白了就是AI更像一个真正的智能体，而不是只会对话的工具。它能自己规划任务、执行多步骤工作流、在遇到问题时自主调整策略。这点在实际开发中特别重要，因为你不可能每一步都盯着它。

还有个值得注意的细节，Claude Opus 4.6现在已经在GitHub Copilot、Amazon Bedrock、Snowflake Cortex AI这些主流平台上可用了。这说明Anthropic在生态建设上下了不少功夫，不是关起门来自己玩。

03、Claude in Excel

除了模型本身的升级，Claude在Excel这块儿的更新也很有意思。

这次新增的规划模式（Plan Mode），简单说就是先规划、后执行。AI会先分析项目架构和依赖关系，起草实现方案，等你确认后再开始动手。

这个思路特别适合金融、财务这些对准确性要求极高的领域。你可以想象一下，让AI直接帮你改Excel表格，万一改错了怎么办？

但有了规划模式，AI先把方案摆出来，你审核一遍觉得没问题了再执行，安全感瞬间就上来了。

而且这次还支持多文件拖放、长会话自动压缩、避免覆盖现有单元格、自动保存和压缩。这些功能单看都不算特别惊艳，但组合在一起，就能明显感觉到产品团队是真的理解用户痛点。

我看了下时间线，Claude for Excel是2025年10月上线的，2026年1月向Pro用户开放，现在又加了规划模式，这个迭代速度说实话挺快的。看来2026年Excel可能会成为继编码之后又一个被AI重塑的高价值领域。

04、两家这次真的在打仗

写到这儿，我停下来想了想，这两家为什么要选择同一时间发布？

表面看是巧合，但往深了想，这明显就是一场精心策划的对抗。

OpenAI和Anthropic都知道对方在准备更新，所以都在等那个最佳时机，争取在舆论场上占得先机。

而且你注意看两家发布的产品定位，GPT-5.3-Codex主打最强AI智能体编程模型，Claude Opus 4.6强调最智能的模型，这话听着就有点针锋相对的意思。

从市场策略来看，OpenAI这次更像是在秀肌肉，用各种基准测试的高分证明自己的技术实力。

Anthropic这边则在产品体验和生态整合上发力，试图通过更好的用户体验来赢得开发者。

说句题外话，我还看到个消息，API形式的GPT-4o一周后就要停了，这波属于时代的眼泪。

我最爱的还是 4o，你敢信。

毕竟从GPT-4到GPT-5.3-Codex，OpenAI的产品迭代速度确实快得让人有点喘不过气。

05、对普通开发者意味着什么

讲了这么多技术细节，可能有人会问，那我们普通开发者到底该怎么选？

比如你的任务需要理解整个项目的上下文，那Claude Opus 4.6的100万token窗口就能派上用场。

如果你经常需要处理视觉类的任务，比如看截图改UI、根据设计稿写前端代码，那GPT-5.3-Codex在OSWorld-Verified上的高分可能更值得关注。

还有个现实问题是成本和速度。OpenAI说GPT-5.3-Codex完成同等任务所需令牌减半、速度提升25%，这对于预算有限的小团队或者个人开发者来说，吸引力还是挺大的。

但我真心觉得，这场大战最大的受益者是我们这些普通开发者。两大巨头互相卷，最后卷出来的都是更好的产品和更低的价格。

就像现在，Claude有GitHub Copilot集成，OpenAI有macOS版Codex应用，你完全可以两个都试试，看哪个更适合你的工作流。没必要非得站队，好用就完事了。

ending

有时候我也在想，AI到底应该是什么模样？

不该是用来替代我们的工具。不该是让我们焦虑的威胁。

AI应该是能让我们从重复劳动中解放出来的伙伴。应该是让我们有更多时间思考架构、设计产品、创造价值的助手。

比如把繁琐的CRUD交给AI，我们专注于业务逻辑和用户体验。比如把看代码的时间省下来，多看看行业趋势和技术演进。比如把写测试的功夫用在优化系统架构上。

「技术进步的意义，从来不是淘汰人类，而是让人类有机会做更有意义的事。」

这次更新，不管是GPT-5.3-Codex的26个百分点提升，还是Claude Opus 4.6的100万token上下文，本质上都是在让AI变得更聪明、更好用。

而我们，需要思考的是如何用好这个工具，而不是担心被工具替代。

参考资料：

狭路相逢勇者胜！Claude Opus 4.6和GPT 5.3 Codex同时更新

01、GPT-5.3-Codex

02、Claude Opus 4.6

03、Claude in Excel

04、两家这次真的在打仗

05、对普通开发者意味着什么

ending

相关推荐

作者介绍

管理员

优质PDF

相关文章

目录

划线评论