文章详情

LLM 应用评测体系:没有评测,就没有稳定迭代

模型效果的讨论必须可量化。本文介绍一套适合业务团队的 LLM 评测与回归机制。

枳树
枳树

发布于 2026-04-08

很多 AI 项目在 Demo 阶段效果不错,进入生产后却不断波动。

核心原因通常是:没有一套稳定、可回归的评测体系。

评测要覆盖三层

  1. 离线样本集评测
    覆盖典型问题、边界问题和对抗问题。

  2. 在线真实流量评测
    观察模型在真实场景下的成功率、延迟和用户反馈。

  3. 回归评测
    每次模型、提示词、检索链路变更后自动比对核心指标。

三层结合,才能避免“改一次好一次,线上抖一次”。

指标怎么定

至少要有:

  • 任务成功率
  • 事实一致性
  • 拒答/幻觉比例
  • 端到端延迟与成本

如果只看“主观感觉变好了”,项目很难长期稳定。

数据集如何持续更新

高质量评测集不是一次性产物。

我通常按这个闭环做:

  1. 从线上失败案例回流样本
  2. 按问题类型打标签
  3. 定期更新评测集并重跑回归

这样评测集会越来越贴近真实业务,而不是停留在理想场景。

小结

AI 应用的竞争力,最终不是谁先上线,而是谁能稳定、可控地持续优化。

而评测体系就是这件事的基础设施。