最后要交什么
一份 retrieval review report、一份 evidence chain checklist 结果,以及一组真实 retrieval failure 样例。
Assessment
这节课要求你把一个真实 retrieval workflow 审成 evidence chain,而不是继续说“我们已经有知识库了”。DepthPilot 要你交出 query 到 citation 的全链路报告、来源与新鲜度判断,以及 retrieval 失败样例,不让 grounding 停留在口号层。
一份 retrieval review report、一份 evidence chain checklist 结果,以及一组真实 retrieval failure 样例。
不是检索看起来在工作,而是你能指出查询、过滤、注入、引用和 freshness 每一步的职责与失败方式。
这页把 evidence routing 顺序、retrieval ladder、噪声识别和交付模板收成了一套可复用 runbook。
先定义哪些问题必须取证,哪些问题允许直接回答。
先设计 query 和 filter,再考虑 chunk 怎么塞进上下文。
把 citation、source metadata 和 freshness 一起设计,不要只管检回来。
最后明确 retrieval 质量差时系统该澄清、降级还是拒答。
先查 query 是否表达了真实意图,再查 top-k 和筛选是否合理。
检查 retrieval 结果是不是相关但无用,或完全无关却得分很高。
区分 retrieval 失败、rerank 失败、context injection 失败和 answer synthesis 失败。
把失败样例留下来,后续用于 eval,而不是只临时排错一次。
把知识库存在当成 grounding 已完成,没有 query、filter、citation 设计。
检到大量片段,却没有显式来源和时间信息。
弱相关文本大量进入上下文,反而冲掉了真正证据。
时间敏感问题没有 freshness policy,旧证据和新问题混在一起。
上线前必须保留的证据
一份从 query rewrite 到 citation 的 evidence path 记录。
一份来源与 freshness 判断说明,明确哪些源值得信、多久会过时。
一组 retrieval failure 样例,证明你知道哪里会误检、漏检或引噪。
一段你自己的复盘:这个 workflow 最危险的是缺证据、证据脏,还是证据过时。
可直接拿走的检索模板
把 query、filter、citation、freshness 和失败记录收成一份可复查报告。
按这份清单检查 grounding 是不是只停留在“加了知识库”。
Search Cluster
高意图用户往往先从 retrieval、grounding、observability 或 eval checklist 进入,再决定是否做真正的 evidence chain 审计。
Retrieval and Grounding Guide
很多人搜 retrieval 或 grounding,只想知道怎么把文档喂给模型。DepthPilot 更关心的是:什么时候必须取证、如何筛证、如何保留来源,让用户真正知道答案为什么值得信。
打开路径LLM Observability Guide
很多人搜 LLM observability,是因为系统出了问题却不知道怎么查。DepthPilot 关心的不只是埋点,而是怎样记录 trace、标注失败、重放坏 case,让调试进入系统方法。
打开路径AI Eval Checklist
搜 AI eval checklist 的用户通常不缺观点,缺的是一份能执行的核对清单。这个页面把 eval 的最小判断框架直接收成清单式入口。
打开路径参考附录
这些来源是方法锚点。课程主体是上面的 evidence routing order、retrieval ladder、坏模式识别和检索模板。