Agent 从 demo 到上线,我列了张部署前自查清单(踩坑攒的)

发布时间：2026/6/15 12:19:54

demo 跑通的那一刻最容易飘——我也飘过,直接发出去,然后被线上各种问题教做人。后来我把每次上线前要确认的东西攒成了一张清单,这篇就把清单贴出来。形式就是逐条过,你照着勾,能少摔几次。上线前自查 12 条稳定性□ 上游接口/工具挂了,Agent 会优雅降级还是直接卡死?我有个工具超时了整个对话就转圈,后来给每个外部调用都设了超时和兜底回复。□ 模型返回为空或乱码时,有没有捕获和重试?□ 长对话上下文超限了怎么办?截断策略提前定好,别等线上炸。正确性□ 关键意图的识别准确率你实测过没?别只测顺路 case,把模棱两可的、夹带情绪的、答非所问的都喂一遍。□ 工具调用的参数提取,边界值测了吗(空值、超长、特殊字符)?□ 知识库召回的内容,你抽样核对过对不对?我上线前抽了 30 条问答人工对,发现召回里混了过期文档。运维可观测□ 出了问题你能不能快速定位是哪一步崩的?调用链得能追。□ 有没有日志记下每次对话的输入、走了哪些节点、调了啥工具?□ 异常会不会有告警通知到你,还是得用户投诉了才知道?成本与限流□ 单次对话的 token 消耗你估过没?有没有用户能刷爆你额度?□ 高并发下会不会被模型那边限流?需不需要排队或缓存。□ 哪些请求可以走缓存省钱(高频重复问题),你标出来了吗?我自己栽得最惨的两条一是第 1 条降级。最早那版,只要天气接口抽风,用户问任何问题 Agent 都跟着转圈,因为我把天气工具挂在了主流程上还没设超时。改成 3 秒超时暂时查不到,稍后再试兜底,体验天差地别。二是第 6 条知识库核对。我太信任召回了,结果有篇半年前的旧政策文档没下架,Agent 拿它当依据答了好几个用户。教训:知识库内容也得有版本和有效期意识,上线前必须抽检。工具这块我搭 Agent 用的是个零代码就能配、还自带调用链追踪和效果测评的平台,上面这张清单里调用链可追测评跑用例这两块它能直接覆盖,省了我自己埋点。缺点嘛:它的测评要自己攒用例集,冷启动时没现成数据,我吭哧吭哧手凑了几十条才跑起来,这步偷不了懒。模型我用讯飞 MaaS,现成 API,没自己部署推理服务,上线也省了运维模型那摊事。你们上线前还会查啥?把你的自查项甩评论区,我补进清单。