OpenAI API Docs
Graders
为 grader 设计和结构化评估标准提供官方基础。
打开原始资料Evaluation
Premium如果你不能按维度给质量打分,就无法负责任地改进系统。Rubric 的作用是把含糊口味变成可复查证据和修复优先级。
Trust Layer
内容不是从碎片信息拼出来的,而是按“官方资料定义 + 产品实践抽象 + 可执行练习”三层整理。
Learning Objectives
把抽象质量目标拆成评分维度、评分锚点和阈值
区分总分与维度分,让修复优先级变清楚
写出第二个操作者或自动 grader 也能复用的评分规则
Practice Task
选一条真实 workflow,定义 4 个 rubric 维度,并为每个维度写出 0-3 分锚点,再补一条 hard-stop 规则:即使平均分还行,只要触发它也必须失败或升级处理。
Editorial Review
已审核 · DepthPilot Editorial · 2026-03-09
本课重点不是做打分秀,而是把质量诊断和修复优先级讲清楚。
内容锚定官方 grading 与 eval 指南,帮助用户把判断变成稳定机制。
实际目标是更清楚地决定先修哪一层,而不是只让平均分变好看。
知识链路
这节课不是孤立文章,而是知识网络里的一个节点。先知道它连接了哪些底层能力,再决定下一步该补哪一层。
打开完整知识网络学会的证据
你能把一个抽象质量目标拆成可复查的 rubric 维度,让第二个人也能按同一标准评分。
你能解释一个坏结果究竟是 factuality、instruction following、citation 还是 escalation judgment 出的问题。
最容易掉进去的误区
把“整体感觉不错”当成评估,最后没有任何可复查的评分依据。
只保留总分,不保留维度分和失败标签,结果不知道先修哪一层。
很多团队只会说新版本“感觉更好了”,但这隐藏了到底哪里变好了、哪里退步了。好的 rubric 会把质量拆成 factuality、instruction following、citation quality、escalation judgment 等维度。