DP

DepthPilot AI

System-Level Learning

Assessment

Rubric Grading 实战:把“感觉不错”变成可复查评分

这节审计课要求你把一条真实 workflow 写成 scoring rubric、grader spec 和 calibration sheet。DepthPilot 要的不是一张漂亮分表,而是你真的能说清哪一维坏了、为什么坏、下一步先修哪一层。

最后要交什么

1 份 scoring rubric、1 份 grader spec、1 份 calibration sheet。

真正的通过标准

不是“给了分”,而是第二个 reviewer 也能复用同一套逻辑,严重失败不会被平均分掩盖。

我们的增值部分

这页把 eval 从口味和印象,推进到可诊断、可排序、可回滚的质量机制。

Scoring rubric

  • 先拆维度,再谈总分,不要一上来做总体印象打分。
  • 为每个维度写清 0-3 分锚点,避免 reviewer 靠感觉理解。
  • 定义哪些维度会触发 hard fail,而不是被平均掉。
  • 让 rubric 对应到真实修复层,不是为了好看。

Grader spec

  • 写清 grader 看什么证据、怎么判分、哪些情况必须引用 trace。
  • 区分 final answer grading 与 trace grading。
  • 让 grader spec 适用于人审和自动 grader。
  • 把“不知道时怎么判”写成规则,而不是让 grader 自由发挥。

Calibration sheet

  • 保留 reviewer 之间的分歧,而不是只看最终平均分。
  • 找出最容易分歧的维度,反过来优化 rubric 锚点。
  • 把 calibration 当成质量治理,而不是一次性走流程。
  • 让它直接服务上线、回滚和修复排序。

上线前必须保留的证据

一份 scoring rubric,写清维度、锚点和 hard-stop 规则。
一份 grader spec,定义评分输入、步骤和 override 条件。
一份 calibration sheet,记录评分分歧和修订意见。
一段复盘:你当前 workflow 最该先修的是 factuality、citation、instruction following,还是 escalation judgment。

可直接拿走的评分模板

下载 Grader Spec

写清 grader 看什么、怎么判、何时 override。

下载 Grader Spec

参考附录

这些来源负责锚定 rubric 和 grader 原理。真正的课程主体是上面的评分维度、规则和校准流程。

Search Cluster

把 Rubric 评分接进可搜索的 eval 路径

高意图用户常从 eval、observability 或 rubric 搜索进入,再意识到真正关键的是维度化评分和校准。

Rubric Grading 实战:Scoring Rubric、Grader Spec 与 Calibration | DepthPilot AI