很多 AI 项目在 Demo 阶段效果不错,进入生产后却不断波动。
核心原因通常是:没有一套稳定、可回归的评测体系。
评测要覆盖三层
离线样本集评测
覆盖典型问题、边界问题和对抗问题。在线真实流量评测
观察模型在真实场景下的成功率、延迟和用户反馈。回归评测
每次模型、提示词、检索链路变更后自动比对核心指标。
三层结合,才能避免“改一次好一次,线上抖一次”。
指标怎么定
至少要有:
- 任务成功率
- 事实一致性
- 拒答/幻觉比例
- 端到端延迟与成本
如果只看“主观感觉变好了”,项目很难长期稳定。
数据集如何持续更新
高质量评测集不是一次性产物。
我通常按这个闭环做:
- 从线上失败案例回流样本
- 按问题类型打标签
- 定期更新评测集并重跑回归
这样评测集会越来越贴近真实业务,而不是停留在理想场景。
小结
AI 应用的竞争力,最终不是谁先上线,而是谁能稳定、可控地持续优化。
而评测体系就是这件事的基础设施。