OpenAI API Docs
Trace grading
提供了对 trace 进行结构化评分和分析的官方方法,是本课关于 trace、标注和诊断设计的直接依据。
打开原始资料Evaluation
Premium真正成熟的 AI 系统,不靠“感觉哪里不对”来排错,而是靠 trace、失败标签和可重放证据把问题定位到具体链路。
Trust Layer
内容不是从碎片信息拼出来的,而是按“官方资料定义 + 产品实践抽象 + 可执行练习”三层整理。
Learning Objectives
知道一次 AI 失败要想真正修好,系统至少要记录哪些上下文、证据、工具和输出信息
学会先重放失败,再决定该修 prompt、检索、工具调用还是编排逻辑
把坏 case 变成带 failure label 的调试资产,而不是一次性抱怨
Practice Task
选一个你最近遇到的真实失败,设计一份最小 trace 模板:记录用户输入、系统规则、检索证据、工具调用、最终输出、失败标签和你准备先检查的层级顺序。
Editorial Review
已审核 · DepthPilot Editorial · 2026-03-09
本课锚定在官方 trace grading 和 agent evals 资料上,而不是泛泛而谈“多记点日志”。
课程重点是把调试顺序做成系统方法:先重放,再定位,再修改。
课程鼓励 failure label 和 trace 资产化,目的是建立持续改进能力,而不是临时排错技巧。
知识链路
这节课不是孤立文章,而是知识网络里的一个节点。先知道它连接了哪些底层能力,再决定下一步该补哪一层。
打开完整知识网络学会的证据
你能列出一条坏 run 最少必须记录哪些输入、证据、工具和输出信息,才能被真正重放。
你能给一个真实失败打出更具体的 failure label,并据此说明先修哪一层。
最容易掉进去的误区
只看最终回复文本,就急着改 prompt,没有重放运行链。
把所有失败都归成“模型不稳定”,导致后面既无法聚类,也无法排优先级。
很多团队所谓的“调试 AI”,其实只是凭印象改 prompt。问题是:如果你看不到那次运行到底收到了什么输入、拿到了哪些证据、调了哪些工具、输出了什么结果,你就无法确认问题发生在哪一层。没有 trace 的调试,只是高级猜测。