最后要交什么
一份 model-routing matrix、一份 unsupported-answer policy,以及一份 fallback ladder。
Assessment
这节审计课要求你把一个真实 workflow 的任务分类、模型路径、unsupported-answer 行为和 fallback 顺序写成显式政策。DepthPilot 要的不是一句“这个模型更强”,而是能说清什么请求该走哪条链、何时该拒答、何时该升级给人,以及这些决定如何被复查。
一份 model-routing matrix、一份 unsupported-answer policy,以及一份 fallback ladder。
不是系统大多数时候能答,而是它在该澄清、该检索、该拒答、该升级时真的会走正确路径。
这页把 routing、abstention 和 downgrade 变成了可执行 policy,而不是停留在“尽量别幻觉”的空话。
先按任务价值、风险和证据需求分类,而不是按 provider 喜好分类。
为每类任务定义 latency/cost 预算,避免所有请求都走最强最贵路径。
明确哪些任务绝不能 auto-answer。
让 routing 规则可被第二个人复查,而不是只存在于操作者脑中。
把 clarify、retrieve、abstain、escalate 当成合法结果,而不是失败。
定义证据不足、证据过时、权限不足和高风险动作时的处理方式。
写清给用户看的语言,避免系统用模糊措辞掩盖 unsupported answer。
把 refusal 视为质量机制,而不是产品丢脸。
定义 primary route 失败后该先检索、先澄清还是直接降级。
区分 downgrade 和 abstain:前者是较弱但仍可交付的路径,后者是不该继续答。
明确 hard stop 和 human escalation owner。
让 fallback 成为显式梯子,而不是临场拍脑袋。
上线前必须保留的证据
一份把任务类别、风险、证据需求和预算写清楚的 routing matrix。
一份 unsupported-answer policy,明确什么时候澄清、检索、拒答和升级处理。
一份 fallback ladder,说明 primary route 失败后如何有序退让而不是乱跳。
一段复盘:你现在这条 workflow 最危险的是过度回答、过度花钱,还是 fallback 混乱。
可直接拿走的路由模板
把任务分类、风险、证据需求和预算绑定到具体模型或路径。
为澄清、检索、拒答和升级处理写出显式政策。
把 downgrade、abstain 和 escalate 的顺序写清楚。
Search Cluster
高意图用户常常先从 model routing、LLM limitations 或 eval checklist 进来,再决定是否认真设计 unsupported-answer policy。
LLM Model Routing Guide
很多人搜 model routing,只盯着哪个模型更强。DepthPilot 更关心的是:哪些请求值得强路径,哪些应该走便宜路径,哪些根本不该直接回答。
打开路径LLM Limitations
很多人在搜 LLM limitations 时,只是想知道模型有哪些缺点。DepthPilot 更进一步:我们要让用户学会把任务分流到回答、澄清、检索、工具调用或拒答,而不是继续被流畅输出骗走判断力。
打开路径AI Eval Checklist
搜 AI eval checklist 的用户通常不缺观点,缺的是一份能执行的核对清单。这个页面把 eval 的最小判断框架直接收成清单式入口。
打开路径参考附录
这些来源负责锚定方法。真正的课程主体是上面的 routing matrix、unsupported-answer policy、fallback ladder 和模板交付。