OpenAI
Why language models hallucinate
为本课关于不确定性和 unsupported answer 的处理提供官方锚点,说明为什么不能把流畅回答当成默认行为。
打开原始资料Evaluation
Premium严肃团队不会把所有请求都打到同一个模型上,也不会逼系统把所有请求都答出来。它们会按任务价值、风险、证据需求和预算来分流,并保留澄清、取证、拒答和升级的权利。
Trust Layer
内容不是从碎片信息拼出来的,而是按“官方资料定义 + 产品实践抽象 + 可执行练习”三层整理。
Learning Objectives
按任务价值、风险、证据需求和延迟/成本预算设计 routing matrix
定义系统什么时候该回答、什么时候先检索、先澄清、拒答或升级给人工
用 eval、abstention 表现、延迟和成本来判断 routing policy,而不是凭感觉
Practice Task
选一个你常用的产品或 workflow,把进入请求分成 3 到 5 类,为每一类指定合适的模型或路径,并写清当证据不足或高自信不该被相信时,系统必须怎么做。
Editorial Review
已审核 · DepthPilot Editorial · 2026-03-09
本课结合了官方关于 hallucination、不确定性处理和成本取舍的内容,以及可信实践者对模型选择的经验总结。
它把 routing 和 abstention 讲成显式产品政策,而不是让模型临场发挥 unsupported answer。
教学目标是提高决策质量:什么时候回答、什么时候取证、什么时候停。
Primary Sources
OpenAI
为本课关于不确定性和 unsupported answer 的处理提供官方锚点,说明为什么不能把流畅回答当成默认行为。
打开原始资料Anthropic Docs
支撑本课关于证据优先、显式不确定性和 abstention 路径的设计。
打开原始资料OpenAI API Docs
为本课关于不同任务不该走同样昂贵路径提供官方依据。
打开原始资料Burnwise
提供了生产实践视角,说明如何按任务类型做模型选择,而不是默认一切都打到同一个模型。
打开原始资料Anthropic Docs
进一步支持本课的核心观点:模型选择应该服从任务约束,而不是抽象偏好。
打开原始资料知识链路
这节课不是孤立文章,而是知识网络里的一个节点。先知道它连接了哪些底层能力,再决定下一步该补哪一层。
打开完整知识网络学会的证据
你能把一条真实请求流拆成几类任务,并为每类任务定义合适的模型或路径,而不是所有请求都走同一套回答链。
你能明确指出什么时候系统该澄清、检索、拒答或升级处理,而不是硬把所有请求都塞进直接回答。
最容易掉进去的误区
把 refusal 或 abstention 误当成产品弱点,结果逼系统输出 unsupported answer。
没有任务分类和阈值设计,就直接做所谓 model routing,最后只剩人工拍脑袋选模型。
团队经常争论哪个模型更强,但真正有用的问题是:这类任务值不值得走这条路径。有些请求值得最强模型、最新证据和更长推理预算;另一些请求应该压缩、降级,甚至拒绝,因为它们不值得消耗那样的成本或权限。