Harness落地的七个暗坑,你知道吗?真正会做 AI Agent 的人,不是上来就问“用哪个模型”,而是先想清楚七个关键决策。
因为 Agent 不是模型加工具这么简单。它更像一台机器:模型只是发动机,Harness 才是传动系统、刹车、仪表盘和安全气囊。发动机再猛,底盘设计错了,也一样翻车。
第一个决策:单 Agent 还是多 Agent。很多人一上来就搞一堆智能体,听起来很高级,实际可能只是多花 token、多制造沟通损耗。Anthropic 和 OpenAI 的经验都很明确:先把单 Agent 做到极限,只有当工具太多、任务领域明显分离时,再拆多 Agent。
第二个决策:ReAct 还是 Plan-and-Execute。ReAct 是边想边做,灵活但成本高;Plan-and-Execute 是先规划再执行,更适合长任务和可控流程。你要的是“探索能力”,还是“执行效率”,路线完全不同。
第三个决策:上下文怎么管。Agent 不是越塞越聪明,而是越塞越容易烂。历史消息、工具输出、文件内容、检索结果,如果不筛选、不压缩、不分层加载,很快就会把上下文窗口变成垃圾仓库。
第四个决策:验证循环怎么设计。没有验证的 Agent,只是在自信地胡说。代码要跑测试,网页要看截图,结果要有检查器,必要时还要用另一个模型做 judge。生产级 Agent 的核心不是“生成”,而是“确认它真的做对了”。
第五个决策:权限和安全边界。自动化能力越强,越不能随便放权。读文件、写文件、执行命令、访问网络、删除数据,每一步都要分级。否则 Agent 不是助手,而是拿着 root 权限的熊孩子。
第六个决策:工具怎么暴露。工具不是越多越好。工具太多,模型会选错、混淆、浪费上下文。真正成熟的设计,是按任务阶段暴露最小工具集,需要什么再加载什么。
第七个决策:Harness 要厚还是薄。厚 Harness 可控、稳定、工程感强;薄 Harness 灵活、依赖模型能力、未来适配性更好。模型越强,很多硬编码流程就可以删掉;但在今天,关键任务仍然需要足够的工程兜底。
这七个决策,决定了一个 Agent 是玩具,还是产品。很多人做出来的智能体只能演示,不能交付,就是因为没有做这些架构选择,只是在模型外面套了一层壳。
一句话总结:Agent 的成败,不取决于你喊了多少“自主智能”,而取决于这七个决策有没有想明白。真正的高手,不是让 AI 看起来很聪明,而是让 AI 在复杂任务里稳定、不乱、可控地把活干完。
