DP

DepthPilot AI

System-Level Learning

Assessment

Retrieval / Grounding 审计实战:把证据链真正审清楚

这节课要求你把一个真实 retrieval workflow 审成 evidence chain,而不是继续说“我们已经有知识库了”。DepthPilot 要你交出 query 到 citation 的全链路报告、来源与新鲜度判断,以及 retrieval 失败样例,不让 grounding 停留在口号层。

最后要交什么

一份 retrieval review report、一份 evidence chain checklist 结果,以及一组真实 retrieval failure 样例。

真正的通过标准

不是检索看起来在工作,而是你能指出查询、过滤、注入、引用和 freshness 每一步的职责与失败方式。

我们的增值部分

这页把 evidence routing 顺序、retrieval ladder、噪声识别和交付模板收成了一套可复用 runbook。

Evidence routing order

先定义哪些问题必须取证,哪些问题允许直接回答。

先设计 query 和 filter,再考虑 chunk 怎么塞进上下文。

把 citation、source metadata 和 freshness 一起设计,不要只管检回来。

最后明确 retrieval 质量差时系统该澄清、降级还是拒答。

Retrieval ladder

先查 query 是否表达了真实意图,再查 top-k 和筛选是否合理。

检查 retrieval 结果是不是相关但无用,或完全无关却得分很高。

区分 retrieval 失败、rerank 失败、context injection 失败和 answer synthesis 失败。

把失败样例留下来,后续用于 eval,而不是只临时排错一次。

High-signal bad patterns

把知识库存在当成 grounding 已完成,没有 query、filter、citation 设计。

检到大量片段,却没有显式来源和时间信息。

弱相关文本大量进入上下文,反而冲掉了真正证据。

时间敏感问题没有 freshness policy,旧证据和新问题混在一起。

上线前必须保留的证据

一份从 query rewrite 到 citation 的 evidence path 记录。

一份来源与 freshness 判断说明,明确哪些源值得信、多久会过时。

一组 retrieval failure 样例,证明你知道哪里会误检、漏检或引噪。

一段你自己的复盘:这个 workflow 最危险的是缺证据、证据脏,还是证据过时。

Search Cluster

把 retrieval 审计接进可搜索的证据路径

高意图用户往往先从 retrieval、grounding、observability 或 eval checklist 进入,再决定是否做真正的 evidence chain 审计。

参考附录

这些来源是方法锚点。课程主体是上面的 evidence routing order、retrieval ladder、坏模式识别和检索模板。

Retrieval / Grounding 审计实战:证据链、来源与新鲜度 | DepthPilot AI