最后要交什么
1 份 scoring rubric、1 份 grader spec、1 份 calibration sheet。
Assessment
这节审计课要求你把一条真实 workflow 写成 scoring rubric、grader spec 和 calibration sheet。DepthPilot 要的不是一张漂亮分表,而是你真的能说清哪一维坏了、为什么坏、下一步先修哪一层。
1 份 scoring rubric、1 份 grader spec、1 份 calibration sheet。
不是“给了分”,而是第二个 reviewer 也能复用同一套逻辑,严重失败不会被平均分掩盖。
这页把 eval 从口味和印象,推进到可诊断、可排序、可回滚的质量机制。
上线前必须保留的证据
可直接拿走的评分模板
定义维度、锚点和 hard-stop 条件。
下载 Scoring Rubric写清 grader 看什么、怎么判、何时 override。
下载 Grader Spec记录 reviewer 分歧并反过来优化 rubric。
下载 Calibration Sheet这些来源负责锚定 rubric 和 grader 原理。真正的课程主体是上面的评分维度、规则和校准流程。
Search Cluster
高意图用户常从 eval、observability 或 rubric 搜索进入,再意识到真正关键的是维度化评分和校准。
LLM Evaluation Rubric
很多人在搜索 LLM evaluation rubric 时,只是想找一张模板。DepthPilot 更进一步:我们把 rubric 变成维度、锚点、hard-stop 和 grader 规则,帮助用户真正决定系统哪里坏了、先修哪里。
打开路径AI Eval Loop
真正严肃的 AI 产品不会把‘感觉更好了’当成评估。搜 AI eval loop 的用户通常已经意识到,没有评估,前面的 prompt 和 workflow 都很难稳定增长。
打开路径LLM Observability Guide
很多人搜 LLM observability,是因为系统出了问题却不知道怎么查。DepthPilot 关心的不只是埋点,而是怎样记录 trace、标注失败、重放坏 case,让调试进入系统方法。
打开路径