大家好,我是二哥呀。
说实话,看到两家前后脚发布的消息,我第一反应是:这两家不会是商量好了吧?
OpenAI和Anthropic几乎同一时间发布了新一代编程模型——GPT-5.3-Codex和Claude Opus 4.6。
奥特曼这次是真的急了,毕竟Claude Code、Cowork、Clawdbot这三连击下来,OpenAI在企业级软件开发这块儿的压力确实不小。
01、GPT-5.3-Codex
先说OpenAI这边的GPT-5.3-Codex,这次最让我意外的就是那个OSWorld-Verified基准测试的分数。
可能有人不了解这个测试是干啥的,用人话说就是让AI看屏幕截图,然后在虚拟桌面环境里完成各种电脑任务。人类的平均得分大概是72%,你可以把这个理解成一个普通人在电脑前能完成任务的概率。
之前的GPT-5.2-Codex得分是38.2%,说实话这个水平已经挺能打了,毕竟视觉理解和任务执行这两个能力都挺考验硬实力的。但这次GPT-5.3-Codex直接干到了64.7%,提升了整整26.5个百分点。
讲真,这个提升幅度在AI领域简直就是离谱。你知道模型训练到了这个阶段,想提升一两个百分点都得脱层皮,直接暴涨26.5%,这说明OpenAI在架构或者训练方法上肯定搞出了什么新东西。
我还看到个细节,OpenAI官方说完成同等任务所需的令牌量减少了一半,单令牌处理速度还提升了25%。这什么概念?就是又快又省钱,对于企业用户来说,这俩指标比单纯的准确率提升更实在。
除了OSWorld-Verified,GPT-5.3-Codex在其他几个基准测试里也全面碾压前代:SWE-Bench Pro到了57%,TerminalBench 2.0到了76%,网络安全CTF挑战更是拿到了77.6%的准确率,被直接归类为高能力模型。
这波更新后,GPT-5.3-Codex的定位很清晰——就是OpenAI最强AI智能体编程模型,专门用来干那些复杂的、需要长时间推理的软件开发任务。
02、Claude Opus 4.6
再来看看Anthropic这边的Claude Opus 4.6。
说实话,Claude这次的主打方向跟OpenAI不太一样。OpenAI那边是在基准测试分数上狂飙,Claude这边更像是把产品体验做到了极致。
最大的亮点就是100万token的上下文窗口。你如果对这个数字没概念,我给你算笔账:一篇普通的技术博客大概3000字左右,换算成token大概5000个,100万token相当于200篇这样的博客。
或者换个说法,你可以直接把整个中型项目的代码库扔给Claude,让它理解全局架构后再帮你写代码。
这对于需要理解复杂业务场景、涉及多个文件联动的开发任务来说,真的是降维打击。
以前你得分段喂给AI,还得担心它忘了前面的内容,现在一次性把所有上下文都扔进去,它就能像真正熟悉项目的人一样给出建议。
而且Opus 4.6还强调了agentic能力的增强,说白了就是AI更像一个真正的智能体,而不是只会对话的工具。它能自己规划任务、执行多步骤工作流、在遇到问题时自主调整策略。这点在实际开发中特别重要,因为你不可能每一步都盯着它。
还有个值得注意的细节,Claude Opus 4.6现在已经在GitHub Copilot、Amazon Bedrock、Snowflake Cortex AI这些主流平台上可用了。这说明Anthropic在生态建设上下了不少功夫,不是关起门来自己玩。
03、Claude in Excel
除了模型本身的升级,Claude在Excel这块儿的更新也很有意思。
这次新增的规划模式(Plan Mode),简单说就是先规划、后执行。AI会先分析项目架构和依赖关系,起草实现方案,等你确认后再开始动手。
这个思路特别适合金融、财务这些对准确性要求极高的领域。你可以想象一下,让AI直接帮你改Excel表格,万一改错了怎么办?
但有了规划模式,AI先把方案摆出来,你审核一遍觉得没问题了再执行,安全感瞬间就上来了。
而且这次还支持多文件拖放、长会话自动压缩、避免覆盖现有单元格、自动保存和压缩。这些功能单看都不算特别惊艳,但组合在一起,就能明显感觉到产品团队是真的理解用户痛点。
我看了下时间线,Claude for Excel是2025年10月上线的,2026年1月向Pro用户开放,现在又加了规划模式,这个迭代速度说实话挺快的。看来2026年Excel可能会成为继编码之后又一个被AI重塑的高价值领域。
04、两家这次真的在打仗
写到这儿,我停下来想了想,这两家为什么要选择同一时间发布?
表面看是巧合,但往深了想,这明显就是一场精心策划的对抗。
OpenAI和Anthropic都知道对方在准备更新,所以都在等那个最佳时机,争取在舆论场上占得先机。
而且你注意看两家发布的产品定位,GPT-5.3-Codex主打最强AI智能体编程模型,Claude Opus 4.6强调最智能的模型,这话听着就有点针锋相对的意思。
从市场策略来看,OpenAI这次更像是在秀肌肉,用各种基准测试的高分证明自己的技术实力。
Anthropic这边则在产品体验和生态整合上发力,试图通过更好的用户体验来赢得开发者。
说句题外话,我还看到个消息,API形式的GPT-4o一周后就要停了,这波属于时代的眼泪。
我最爱的还是 4o,你敢信。
毕竟从GPT-4到GPT-5.3-Codex,OpenAI的产品迭代速度确实快得让人有点喘不过气。
05、对普通开发者意味着什么
讲了这么多技术细节,可能有人会问,那我们普通开发者到底该怎么选?
比如你的任务需要理解整个项目的上下文,那Claude Opus 4.6的100万token窗口就能派上用场。
如果你经常需要处理视觉类的任务,比如看截图改UI、根据设计稿写前端代码,那GPT-5.3-Codex在OSWorld-Verified上的高分可能更值得关注。
还有个现实问题是成本和速度。OpenAI说GPT-5.3-Codex完成同等任务所需令牌减半、速度提升25%,这对于预算有限的小团队或者个人开发者来说,吸引力还是挺大的。
但我真心觉得,这场大战最大的受益者是我们这些普通开发者。两大巨头互相卷,最后卷出来的都是更好的产品和更低的价格。
就像现在,Claude有GitHub Copilot集成,OpenAI有macOS版Codex应用,你完全可以两个都试试,看哪个更适合你的工作流。没必要非得站队,好用就完事了。
ending
有时候我也在想,AI到底应该是什么模样?
不该是用来替代我们的工具。不该是让我们焦虑的威胁。
AI应该是能让我们从重复劳动中解放出来的伙伴。应该是让我们有更多时间思考架构、设计产品、创造价值的助手。
比如把繁琐的CRUD交给AI,我们专注于业务逻辑和用户体验。比如把看代码的时间省下来,多看看行业趋势和技术演进。比如把写测试的功夫用在优化系统架构上。
「技术进步的意义,从来不是淘汰人类,而是让人类有机会做更有意义的事。」
这次更新,不管是GPT-5.3-Codex的26个百分点提升,还是Claude Opus 4.6的100万token上下文,本质上都是在让AI变得更聪明、更好用。
而我们,需要思考的是如何用好这个工具,而不是担心被工具替代。
参考资料:
回复