Assessment

Rubric Grading 实战：把“感觉不错”变成可复查评分

这节审计课要求你把一条真实 workflow 写成 scoring rubric、grader spec 和 calibration sheet。DepthPilot 要的不是一张漂亮分表，而是你真的能说清哪一维坏了、为什么坏、下一步先修哪一层。

最后要交什么

1 份 scoring rubric、1 份 grader spec、1 份 calibration sheet。

不是“给了分”，而是第二个 reviewer 也能复用同一套逻辑，严重失败不会被平均分掩盖。

这页把 eval 从口味和印象，推进到可诊断、可排序、可回滚的质量机制。

上线前必须保留的证据

一份 scoring rubric，写清维度、锚点和 hard-stop 规则。

一份 grader spec，定义评分输入、步骤和 override 条件。

一份 calibration sheet，记录评分分歧和修订意见。

一段复盘：你当前 workflow 最该先修的是 factuality、citation、instruction following，还是 escalation judgment。

可直接拿走的评分模板

定义维度、锚点和 hard-stop 条件。

写清 grader 看什么、怎么判、何时 override。

记录 reviewer 分歧并反过来优化 rubric。

这些来源负责锚定 rubric 和 grader 原理。真正的课程主体是上面的评分维度、规则和校准流程。

Search Cluster

高意图用户常从 eval、observability 或 rubric 搜索进入，再意识到真正关键的是维度化评分和校准。

LLM Evaluation Rubric

很多人在搜索 LLM evaluation rubric 时，只是想找一张模板。DepthPilot 更进一步：我们把 rubric 变成维度、锚点、hard-stop 和 grader 规则，帮助用户真正决定系统哪里坏了、先修哪里。

AI Eval Loop

真正严肃的 AI 产品不会把‘感觉更好了’当成评估。搜 AI eval loop 的用户通常已经意识到，没有评估，前面的 prompt 和 workflow 都很难稳定增长。

LLM Observability Guide

很多人搜 LLM observability，是因为系统出了问题却不知道怎么查。DepthPilot 关心的不只是埋点，而是怎样记录 trace、标注失败、重放坏 case，让调试进入系统方法。