AI Weekly — 2026-03-18

Mar 18, 2026

本周关注：Agent 工程化、可靠性与评测、以及企业落地的“最后一公里”。

1) Agent 工程化：从 Demo 到 Production

工具协议与可观测性：把工具调用当作一等公民（结构化输入/输出、失败重试、审计日志）。
工作流编排：把“自由对话”与“可重复流程”分开设计，流程可测试、可回放。
安全边界：权限最小化、对外部系统写操作必须显式批准或通过策略门控。

2) 评测与可靠性

离线评测优先：在同一套用例上比较提示词/模型/工具版本，避免主观波动。
线上观测闭环：把失败样本沉淀为回归集，持续迭代。
成本控制：缓存、分层模型、按场景路由（大模型只做“需要”的部分）。

3) 我在做什么

继续推进 agent4j：让 Java 团队在现有 Spring/微服务体系里更顺滑地接入 Agent 能力。

Links

这周我会把更多“工程化 checklist”整理成可复用模板，方便团队直接上手。