有一说一，Claude Code+GLM-5.1 就是顶级国产 Agent。-技术派

最近有个东西让我有点坐不住。

GLM-5.1 发布了，编程评测 45.3 分，直逼 Claude Opus 4.6 的 47.9。

光看跑分还不够，我得亲自下场测一测。

于是我给了它一个真实项目需求：从零开发一个在线简历编辑器——派简历。9 份需求文档、前后端完整开发、自动化测试，全程不让它停。

结果说实话，有点超出预期。

01、先搞定环境配置

工欲善其事，必先配置环境。

只需要改一下配置文件，把模型切过去就行。

具体操作很简单，打开 Claude Code 的配置，把 ANTHROPIC_AUTH_TOKEN 换成智谱的 API Key，再把 ANTHROPIC_BASE_URL 设成智谱的接口地址。

保存完重启一下，输入 /status 看看是不是已经连上 BigModel.cn。看到智谱的影子就说明稳了。

Claude Code 真是个牛本地 Agent 框架，工具调用、任务编排、错误处理都做的无可挑剔。我们把底层模型换成 GLM-5.1，相当于给国产模型配了一套顶级的执行框架。

这样才能真正测试出模型的长程任务能力，而不是单纯比拼代码补全。

02、让它去啃需求文档

环境就位，直接上硬菜。

我给的任务是开发派简历，一个在线简历编辑器。需求文档散落在语雀知识库里，总共 9 份，涵盖用户流程、简历模块、支付对接、AI 优化、消息通知等方方面面。

提示词我也没写多复杂：进入 plan 模式，用 Chrome 打开这份语雀文档通读一下，地址和密码都在这了。

GLM-5.1 接到任务后，直接调起 Chrome Devtools MCP，打开浏览器就开始干活。整个过程丝滑得不行，不用我在旁边盯着。

文档有密码保护，它我输入后就开始逐页读取。翻页、提取、整理，全程自动。

有个细节让我挺意外。很多模型读长文档时，容易漏掉表格、代码块这种结构化内容。但 GLM-5.1 把库表设计完整提取出来了，字段类型、约束条件、索引设计一个没落。

这是长程任务的基础能力。连需求都读不全，后面写的代码肯定跑偏。

03、多 Agent 并行读文档

一份文档读完，还有八份。

一个一个来太慢，我直接启用 web-access 这个 Skill，让它开多个子 Agent 同时干。这个 Skill 专门用来并行处理网页抓取，之前分享过使用经验。

GLM-5.1 收到指令后，直接开启了多个子 Agent。功能梳理文档、AI 优化简历、简历修改、通知功能，每一份文档都有对应的 Agent 在跑。

每个 Agent 都在独立的标签页里运行，互不干扰。这时候考验的是模型的并发协调能力。

可以通过上下箭头切换查看各个 Agent 的状态，也可以按回车进入某个 Agent 的详细会话。想看哪个就看哪个，交互设计很贴心。

任务结束后，用完的标签页会自动关闭。这个细节很加分，不会留下一堆废标签占资源。

九份文档全部读完，GLM-5.1 给出了一份汇总报告。

用户流程全景：登录 → 首页 → 简历生成 → 我的简历 → 简历优化 → 通知。四大功能模块拆解。认证方案：邮箱注册 + JWT + Redis 缓存。消息队列：Kafka、高低优先级 Topic、死信队列。支付模块：支付宝 H5/PC 双端。简历存储：模块化 JSON + 主表 resume + 子表 resume_module。AI 优化：Deepseek 模型 + STAR 法则 Prompt。

看到这个总结的时候，我心里就有底了。后面的任务它有戏干。

04、设计方案一口气出完

文档读完了，接下来是技术方案。

GLM-5.1 进入 plan 模式，输出了完整的设计文档。技术选型、目录结构、依赖管理、数据库设计、接口定义，全都有。

这份方案不是简单复述需求文档，而是重新梳理成了可以落地的工程设计。

按 ctrl+o 可以看详细的推理过程。建议大家多看看，能学到不少工程化思维的东西。

架构分层很经典：controller 层处理请求、service 层处理业务、mapper 层处理数据访问、entity 层定义数据模型。中规中矩，但够用。

技术选型清单：Spring Boot 3.x + MyBatis Plus + JWT + Redis + Kafka。没有花里哨的东西，都是成熟方案。

它还主动把开发、测试、生产三套环境配置做了隔离。这个细节一般模型想不到。

数据库表结构设计完整：用户表、简历表、简历模块表、支付订单表、支付日志表、通知表。每个表的字段类型和索引都写清楚了。

接口文档采用 RESTful 风格，统一响应格式。每个接口的入参出参都写了，前端同学可以直接照着用。

安全方案也考虑了：JWT 认证、接口权限控制、敏感字段加密。

甚至还画了业务流程图。从用户登录到简历生成，支付到通知，整条链路都在上面。

整个方案拆成了 12 个步骤，每步都有验收标准。不是那种含糊的完成开发，而是真正可执行的任务清单。

05、编码阶段全程不踩刹车

方案确认，开干。

提示词很简单：直接开始写代码，MySQL 和 Redis 我已经启动了。

跑了 21 分钟，没报错、没跑偏、没要求我介入。这 21 分钟里它做了什么？

第一步，搭后端项目骨架。建 Maven 项目，配 pom.xml，分层目录建好。

第二步，建表 + 写实体类 + 写 Mapper。按照前面设计的表结构一一落地。

第三步，实现 JWT 认证模块。登录、注册、Token 刷新，密钥生成和过期机制全考虑了。

第四步，写 CRUD 接口。简历增删改查、模块操作，参数校验、业务逻辑、异常处理都有。

后端这一阶段跑完，创建了 30 多个 Java 文件。

中间它问了我一次：后端代码要不要确认一下再继续？

我说不用，继续。

于是它接着跑前端。装依赖、配路由、写认证页、搭 API 客户端。

登录页、注册页、首页、简历编辑页、支付页，每个页面 UI 和交互逻辑都写了。

代码质量我扫了一遍：结构清晰，命名规范，有基础的错误处理。不是那种能跑就行的垃圾代码。

06、启动和调试完全自理

代码写完，该启动了。

提示词里我加了个要求：后端配置能不能放 .env 文件，不然提交代码容易误提交。

它很顺地处理了这两个要求：把配置抽到了 .env，同时让后端启动的时候自动执行建表语句。

跑的过程中报了一个错：数据库连接字符串用了 utf8mb4，应该是 UTF-8。

有人可能说，这种低级错误不应该犯。

但说句实话，这类环境配置错误，任何模型都会踩。GPT 也会，Claude 也会。重要的是它自己发现了、自己改了，没有等我去提示。

先创建数据库。

启动后端。

数据库链接修正后，后端成功启动。

再开一个终端跑前端。编译报错也是它自己排查修复的。

前端启动成功。

07、自动化测试直接接管浏览器

最后一步，让它自己测自己。

提示词：直接控制浏览器进行测试。

它接管了浏览器，挨个测试各个页面和边界情况。全程没要求我配合，自己点自己验。

最后给了一份测试报告。

08、派简历项目的技术亮点

简单介绍一下派简历这个项目。

这是一个在线简历编辑器，核心功能包括模块化编辑、实时预览、AI 优化和 PDF 导出。

AI 优化是一个亮点。用户写完简历后，可以调用 AI 进行优化。底层用的是 Deepseek 模型，Prompt 采用 STAR 法则。什么是 STAR 法则？Situation 情境、Task 任务、Action 行动、Result 结果。这是简历写作的经典方法论，AI 会按照这个框架帮你润色内容。

支付模块对接了支付宝，支持 H5 和 PC 双端。支付订单表和支付日志表分开存，方便对账和排查问题。

消息通知用的是 Kafka。高优先级 Topic 处理即时通知，低优先级 Topic 处理批量推送。死信队列兜底，确保消息不丢失。

整个项目的架构不算复杂，但该有的都有。对于一个 AI 生成的项目来说，这个完成度已经相当高了。

09、GLM-5.1 的核心竞争力

测试完派简历项目，我想聊聊 GLM-5.1 的核心竞争力到底在哪里。

首先是上下文窗口。GLM-5.1 的上下文窗口大约在 200K 级别，这是什么概念？一份典型的需求文档大概 5000 字，9 份文档加起来也就 45000 字左右。200K 的窗口完全够用，不用来回裁剪内容。

然后是编程能力。SWE-bench Verified 得分 77.8%，这个分数已经接近闭源模型的水准。SWE-bench 是什么？这是目前最权威的代码生成基准测试，考察的是模型解决真实 GitHub issue 的能力。能拿 77.8 分，说明不是只会写 LeetCode 题的选手。

10、怎么写到简历上

如果你跟着这篇文章做了一遍，这个项目完全可以写到简历上。

项目名称：派简历——在线智能简历编辑器

项目简介：一个支持模块化编辑、AI 优化和 PDF 导出的在线简历生成平台，帮助求职者快速打造专业简历。

技术栈：Spring Boot 3.3、React 18、TypeScript、MySQL、Redis、Kafka、JWT、支付宝支付

核心职责：

设计并实现模块化简历存储方案，采用主表 + 子表结构，JSON 格式存储模块内容，支持灵活扩展
集成 Deepseek 模型实现 AI 简历优化，采用 STAR 法则构建 Prompt，提升简历专业度
基于 Kafka 实现消息通知系统，高低优先级 Topic 分离，死信队列确保消息可靠
对接支付宝 H5/PC 双端支付，完成订单创建、回调处理、日志记录全流程
使用 JWT + Redis 实现用户认证，支持 Token 刷新和会话管理

ending

跑完整个流程，我想聊一个核心问题。

国产开源模型的长程任务能力，到底在哪个水位？

用这次测试来回答：GLM-5.1 在长程任务里的表现，比我预期的好很多。

从这个项目里我看到了一个趋势。国产开源模型已经不再是只能写写小 demo 的玩具了，它们开始能够承担真实的工程任务。需求理解、方案设计、代码实现、调试部署、自动化测试，这套完整闭环 GLM-5.1 都能独立跑下来。

智谱在 Coding 这条路上的投入是肉眼可见的。从 GLM-4 到 GLM-4.5，再到 GLM-4.7，然后是现在的 GLM-5.1，每一代都在进步。这种持续迭代的节奏，让我对国产模型的未来更有信心。

当然，GLM-5.1 也不是完美的。它在某些边界情况下的处理能力还有提升空间，比如复杂的前端交互逻辑、跨模块的数据一致性等。但这些问题，随着模型能力的进化，应该都会逐步解决。

【国产开源的长程能力，终于到了可用的临界点。这不是一句空话，而是我用 2 小时实测得出的结论。】

派简历这个项目虽然不算大，但完整走通了需求理解、方案设计、代码实现、调试部署、自动化测试全流程。能独立跑完这套闭环，说明模型的基本素质已经过关。

保持好奇心，保持学习的状态，才能在这个快速变化的时代里不掉队。技术永远在变，但掌握技术的能力，永远是你最可靠的核心护城河。

我们下期再见！

01、先搞定环境配置

02、让它去啃需求文档

03、多 Agent 并行读文档

04、设计方案一口气出完

05、编码阶段全程不踩刹车

06、启动和调试完全自理

07、自动化测试直接接管浏览器

08、派简历项目的技术亮点

09、GLM-5.1 的核心竞争力

10、怎么写到简历上

ending

相关推荐

作者介绍

管理员

优质PDF

相关文章

目录

划线评论