第 01 层:模型现实
先理解硬约束:token、能力边界、输出契约。
如果你不知道模型能承载什么、不能可靠做什么、输出必须怎么被约束,后面的系统设计都会变成碰运气。
Knowledge Network
DepthPilot 后面的内容不应该再按零散主题增长。我们先把大模型知识拆成节点、依赖、掌握证据和交付路径,再沿着这些路径补课。这样用户学到的是一张可迁移的系统图,而不是一堆看完就散的文章。
已上线节点
15
已播种节点
0
待规划节点
0
四层深度学习链路
先理解硬约束:token、能力边界、输出契约。
如果你不知道模型能承载什么、不能可靠做什么、输出必须怎么被约束,后面的系统设计都会变成碰运气。
把上下文、检索、工具调用做成显式结构,而不是继续堆长 prompt。
严肃的 AI 工作流,本质上先是路由问题、状态问题和证据问题,最后才是措辞问题。
让系统可评估、可调试、可控风险、可控制成本。
一个 demo 可以偶尔惊艳一次,但产品要靠可重现的评估、可解释的失败和可承受的成本活下来。
把工作流变成真实产品:身份、权限、订阅和上线验收都要连起来。
如果账号、访问权限、支付状态和学习状态没有被统一,你拥有的只是一些功能页,不是产品链路。
三条能力路径
路径结果
从 prompt 迷信,升级成对约束、输出和架构有判断力的使用者。
最终交付物
一份能解释某个工作流为什么失败的诊断记录。
Token 预算
模型能力边界
提示设计与输出契约
上下文架构
路径结果
把一次性 AI 使用,升级成有证据、可调试、可反复运行的工作流。
最终交付物
一个带检索、工具调用、trace 点和最小 eval 的工作流设计稿。
上下文架构
检索与 Grounding
工具调用与工作流设计
Eval 闭环
可观测性与调试
Rubric 评分与可复查评估
Guardrails 与风险控制
延迟与成本控制
知识新鲜度与文档治理
人工升级与 Review Queue
路径结果
把工作流真正变成产品,补齐账号、权限、订阅和上线证明。
最终交付物
一个可运行、可登录、可解锁高级内容的 AI 产品。
工具调用与工作流设计
Eval 闭环
延迟与成本控制
身份与权限链路
Capstone 产品交付
为什么这张网能让人学得更深
每个节点都回答“它解决什么真实问题、学完后能交付什么”。
每个节点都绑定前置依赖,避免高级话题漂在空中。
每个节点都写清掌握证据和常见误区,课程不会只剩概念复述。
第 01 层:模型现实
把 token 看成系统边界,而不是单纯账单问题。
预算会决定什么信息能常驻、什么必须检索、一次任务到底能承载多少证据和状态。
搜索种子词
无,这是底层入口节点。
哪些信息应该常驻上下文,哪些只该按需注入?
哪些失败其实是信息过载或上下文冗余造成的?
你能把一个真实工作流拆成常驻上下文、临时任务状态和外部证据三层。
你能解释为什么 prompt 更长,常常意味着架构更差。
把 token 只理解成成本问题。
把所有规则、样例和上下文都塞进一个永久大块里。
看清模型什么时候可靠,什么时候必须借助检索、工具或人工确认。
如果能力边界不清晰,团队会把模型弱点误判成 prompt 问题,然后一直在错误层上加指令。
搜索种子词
Token 预算
什么答案应该直接来自模型,什么必须建立在检索证据或工具结果上?
什么时候任务太模糊,需要先澄清、拆解,而不是直接出答案?
你能把一次失败判断成能力问题、上下文问题、数据问题或工具问题,而不是统称 prompt 不行。
你能为模型不该直接回答的任务设计 fallback 行为。
因为回答流畅,就误以为模型真的知道。
默认模型能稳定回忆、稳定推理、稳定执行超出支持边界的任务。
从模糊提示词升级到明确任务 framing、结构化输出和机器可校验结果。
可靠系统需要能被代码、reviewer 和后续工作流稳定解析和验证的输出,而不是靠自然语言猜意思。
搜索种子词
Token 预算
模型能力边界
这个任务最合适的输出格式是什么,系统如何自动验证它?
哪些要求应该写成自然语言,哪些应该变成硬 schema 约束?
你能把一个自由回答任务改成有明确 schema 的输出契约。
你能解释为什么解析失败要 loud fail,而不是静默接受坏结果。
第 02 层:系统设计
把固定协议、任务状态和即时证据拆成不同生命周期的层。
模型只能使用你真正送进去的信息。好的上下文架构会降低漂移、重复和隐性耦合。
搜索种子词
Token 预算
提示设计与输出契约
哪些信息应该在任务之间保持稳定,哪些必须每次刷新?
证据在哪里进入、过期、被审计?
你能把一个巨型 prompt 重写成不同层,并给每层定义更新规则。
你能判断一次错误是证据缺失、状态陈旧还是协议冲突造成的。
把所有规则、样例、证据都放进一个 system prompt。
不设计淘汰规则,导致历史上下文越堆越乱。
用检索控制新鲜度、来源和相关性,而不是假装模型应该记住一切。
有 grounding 的系统更容易验证、更容易维护,也更容易解释为什么这个答案值得信任。
搜索种子词
Token 预算
上下文架构
哪些信息应该按需检索,而不是永久留在上下文里?
检索之后,如何保留引用、来源和新鲜度信息?
你能为一个真实工作流画出查询、筛选、注入和引用的链路。
你能解释什么时候检索提高可靠性,什么时候只是把噪声塞进模型。
把太多文档直接塞进 prompt,却没有排序和过滤。
自称 grounded,但实际上拿不出证据来源。
把工具调用当成工作流设计问题,而不是把 agent 能力想象成魔法。
关键不在于模型会不会调工具,而在于系统知不知道什么时候先澄清、什么时候该行动、失败后如何恢复。
搜索种子词
模型能力边界
提示设计与输出契约
上下文架构
哪些动作必须先有证据或确认,模型才有资格执行?
当链路依赖工具、provider 和 gateway 时,排错顺序应该是什么?
你能跑通一个工具工作流,并解释每个依赖节点在做什么。
你能把高频操作沉淀成 SOP 或 skill,而不是只会临场点点点。
主链路没通,就先加更多工具和插件。
只看 UI,不探测 gateway、pairing 和 tool readiness。
第 03 层:可靠性
用真实失败样本、固定样本集和版本对比,主动改进系统。
没有 eval,你就无法区分这次是优化了、回归了,还是只运气好了一次。
搜索种子词
模型能力边界
提示设计与输出契约
上下文架构
第一批最值得变成 eval 样本的真实失败是什么?
每个指标服务的是上线、回滚,还是优化优先级?
你能从自己的真实失败里做出一个最小 eval 集。
你能解释 eval 结果如何改变产品决策,而不是只做更漂亮的仪表盘。
用和真实业务脱节的 benchmark 代替 live failures。
把一次成功 demo 当成系统真的变好了。
把输入、证据、工具调用和输出串成 trace,让失败可重放、可定位。
不能重放的问题,就很难真正修好。可观测性会把神秘失败变成可拆解的系统问题。
搜索种子词
上下文架构
检索与 Grounding
工具调用与工作流设计
Eval 闭环
要重放一次坏 case,系统必须记录哪些信息?
哪种 failure label 能帮助团队决定先修哪一层?
你能产出一条完整 run trace,包含 prompt、证据、工具链、输出和错误标签。
你能给出一条从系统状态开始,而不是从猜 prompt 开始的调试顺序。
只记录最终答案,不记录证据链和工具链。
还没重放失败,就先改 prompt。
把含糊的“感觉不错”拆成评分维度、grader 规则和可复查证据。
如果团队说不清好结果到底由哪些维度构成,改进就会退化成主观口味。Rubric 的作用是把失败讲清楚,把优先级排出来。
搜索种子词
提示设计与输出契约
Eval 闭环
可观测性与调试
这个 workflow 的质量到底由哪些维度决定:factuality、instruction following、citation、escalation judgment 还是别的?
怎样写 grader 规则,才能让第二个操作者或自动 grader 得出相近结论?
你能为一条真实 workflow 写出带维度、评分锚点和阈值的 rubric。
你能解释系统改好了什么:不只总分上升,而是哪一维度上升、为什么上升。
把整个系统压成一个模糊的 pass/fail。
只看平均分,不保留每条 criterion 的失败痕迹。
从系统层控制 prompt injection、不安全动作、虚假确定性和策略漂移。
一个有用的工作流仍然可能不安全、可操纵、过度自信。风险控制不是法务附属,而是产品质量的一部分。
搜索种子词
模型能力边界
提示设计与输出契约
工具调用与工作流设计
哪些指令绝不能被用户内容或检索文本覆盖?
哪些动作必须在执行前要求确认?
你能识别自己工作流中的一个 prompt injection 或 unsafe action 路径,并给出缓解步骤。
你能解释政策文字和真正可执行 guardrail 的区别。
把 safety 提示语当成 enforcement。
让用户输入或检索文档获得比系统规则更高的权限。
在不破坏体验的前提下,平衡质量、速度和运行成本。
一个只能靠高延迟和高成本工作的链路,到了生产环境就会出问题。延迟和成本是产品约束,不只是财务约束。
搜索种子词
Token 预算
上下文架构
检索与 Grounding
可观测性与调试
优先优化哪一层:模型选择、检索大小、输出长度还是编排逻辑?
用户真正感知延迟的位置在哪里,那里允许的 tradeoff 是什么?
你能找出一个工作流里最重要的两个延迟或成本杠杆,并设计实验。
你能解释压缩、路由、缓存或减少输出如何改变系统 tradeoff。
还没测清 retrieval 浪费和输出膨胀,就先盯模型单价。
为了快和省,直接牺牲证据质量和用户信任。
把检索来源当成有负责人、更新节奏和过期规则的运营资产,而不是一堆向量。
就算做了 retrieval,如果取到的是过时政策、混乱版本或没有时效信号的文档,系统依然会稳定地答错。真正让 grounded 变可靠的是治理,不只是索引。
搜索种子词
检索与 Grounding
可观测性与调试
模型能力边界
哪些文档允许直接支持用户回答,如何证明它们还有效?
文档进入检索前,必须具备哪些 metadata、负责人和 refresh policy?
你能为一类真实知识源定义 freshness class、过期阈值和 owner。
你能解释一次坏答案到底是没检索到、检索到了旧证据,还是压根没有治理规则。
以为文档索引一次就可以永远可靠。
把草稿、旧版本和正式版本混在一起,却没有优先级和 metadata 规则。
设计系统什么时候必须停下、交给人,以及交接时必须带走哪些上下文和证据。
真正可靠的 AI 产品不是“什么都敢答”,而是知道什么时候必须停、必须升级、必须把证据包交给人,不让伤害和误导继续积累。
搜索种子词
模型能力边界
Guardrails 与风险控制
可观测性与调试
工具调用与工作流设计
什么情况应该触发 hard stop:证据不足、权限不足、风险过高还是政策敏感?
人工 reviewer 最少需要什么 handoff packet,才能不是盲接和重复劳动?
你能为一条真实 workflow 定义 hard stop、review queue owner、SLA 和 handoff packet。
你能解释为什么升级给人是质量路径,不是产品丢脸。
只写“必要时转人工”,却没有触发规则和 owner。
升级时没有证据包,导致 reviewer 只能从头重建上下文。
第 04 层:交付
把学习状态、账号身份和访问权限统一成一个产品状态。
教学产品只有在进度、订阅和账号状态跨设备、跨 session 保持一致时,才真正变成产品。
搜索种子词
提示设计与输出契约
Eval 闭环
延迟与成本控制
游客、已登录用户、已订阅用户在产品里的状态到底应该怎么变化?
站内权限状态的真相源到底是什么事件?
你能演示游客、登录用户、订阅用户看到的是不同产品状态。
你能解释为什么账号状态、billing 状态和 UI 状态绝不能漂移。
把 success redirect 当成订阅真相源。
让 auth、billing 和页面状态各自独立演化。
把概念课、工作流、评估、身份和订阅串成一个别人能测试和验收的产品。
真正的深度学习者,不只是会讲术语,而是能交付一条完整产品链路,并拿出证据证明它可运行、可解释、可迭代。
搜索种子词
上下文架构
工具调用与工作流设计
Eval 闭环
身份与权限链路
用户学完之后,除了一个完成勾,还真正留下了什么资产?
什么证据能证明这不是拼凑 demo,而是完整产品?
你能演示从学习、到账户、到高级课解锁、到知识卡沉淀的完整链路。
你能解释自己的架构选择,以及最难收口的链路是什么。
只有很多功能页,没有一个完整产品故事。
只发布内容,不设计实践、验收和知识沉淀。
不要再写游离文章。要么扩展已有节点,要么先创建新节点,并写清前置依赖、搜索意图、掌握证据和常见误区。
只有当节点具备小测或诊断任务、学习证据产物和可迁移练习路径时,才配叫一节完整课程。
下一节该写什么,不看是不是有趣,而看它能不能补齐某条学习路径最大的断层。路径完整,比话题数量更重要。