文章详情

LLM 应用评测体系：没有评测，就没有稳定迭代

模型效果的讨论必须可量化。本文介绍一套适合业务团队的 LLM 评测与回归机制。

枳树

发布于 2026-04-08

技术文章 363 字 1 分钟阅读

很多 AI 项目在 Demo 阶段效果不错，进入生产后却不断波动。

核心原因通常是：没有一套稳定、可回归的评测体系。

评测要覆盖三层

离线样本集评测
覆盖典型问题、边界问题和对抗问题。
在线真实流量评测
观察模型在真实场景下的成功率、延迟和用户反馈。
回归评测
每次模型、提示词、检索链路变更后自动比对核心指标。

三层结合，才能避免“改一次好一次，线上抖一次”。

指标怎么定

至少要有：

任务成功率
事实一致性
拒答/幻觉比例
端到端延迟与成本

如果只看“主观感觉变好了”，项目很难长期稳定。

数据集如何持续更新

高质量评测集不是一次性产物。

我通常按这个闭环做：

从线上失败案例回流样本
按问题类型打标签
定期更新评测集并重跑回归

这样评测集会越来越贴近真实业务，而不是停留在理想场景。

小结

AI 应用的竞争力，最终不是谁先上线，而是谁能稳定、可控地持续优化。

而评测体系就是这件事的基础设施。