AI Weekly — 2026-03-18
本周关注:Agent 工程化、可靠性与评测、以及企业落地的“最后一公里”。
1) Agent 工程化:从 Demo 到 Production
- 工具协议与可观测性:把工具调用当作一等公民(结构化输入/输出、失败重试、审计日志)。
- 工作流编排:把“自由对话”与“可重复流程”分开设计,流程可测试、可回放。
- 安全边界:权限最小化、对外部系统写操作必须显式批准或通过策略门控。
2) 评测与可靠性
- 离线评测优先:在同一套用例上比较提示词/模型/工具版本,避免主观波动。
- 线上观测闭环:把失败样本沉淀为回归集,持续迭代。
- 成本控制:缓存、分层模型、按场景路由(大模型只做“需要”的部分)。
3) 我在做什么
- 继续推进 agent4j:让 Java 团队在现有 Spring/微服务体系里更顺滑地接入 Agent 能力。
Links
- 这周我会把更多“工程化 checklist”整理成可复用模板,方便团队直接上手。