DP

DepthPilot AI

System-Level Learning

Knowledge Network

先建知识网络,再持续扩内容

DepthPilot 后面的内容不应该再按零散主题增长。我们先把大模型知识拆成节点、依赖、掌握证据和交付路径,再沿着这些路径补课。这样用户学到的是一张可迁移的系统图,而不是一堆看完就散的文章。

已上线节点

15

已播种节点

0

待规划节点

0

四层深度学习链路

第 01 层:模型现实

先理解硬约束:token、能力边界、输出契约。

如果你不知道模型能承载什么、不能可靠做什么、输出必须怎么被约束,后面的系统设计都会变成碰运气。

第 02 层:系统设计

把上下文、检索、工具调用做成显式结构,而不是继续堆长 prompt。

严肃的 AI 工作流,本质上先是路由问题、状态问题和证据问题,最后才是措辞问题。

第 03 层:可靠性

让系统可评估、可调试、可控风险、可控制成本。

一个 demo 可以偶尔惊艳一次,但产品要靠可重现的评估、可解释的失败和可承受的成本活下来。

第 04 层:交付

把工作流变成真实产品:身份、权限、订阅和上线验收都要连起来。

如果账号、访问权限、支付状态和学习状态没有被统一,你拥有的只是一些功能页,不是产品链路。

三条能力路径

路径 01:先看清模型

路径结果

从 prompt 迷信,升级成对约束、输出和架构有判断力的使用者。

最终交付物

一份能解释某个工作流为什么失败的诊断记录。

Token 预算

模型能力边界

提示设计与输出契约

上下文架构

路径 02:做出可靠工作流

路径结果

把一次性 AI 使用,升级成有证据、可调试、可反复运行的工作流。

最终交付物

一个带检索、工具调用、trace 点和最小 eval 的工作流设计稿。

上下文架构

检索与 Grounding

工具调用与工作流设计

Eval 闭环

可观测性与调试

Rubric 评分与可复查评估

Guardrails 与风险控制

延迟与成本控制

知识新鲜度与文档治理

人工升级与 Review Queue

路径 03:把工作流交付成产品

路径结果

把工作流真正变成产品,补齐账号、权限、订阅和上线证明。

最终交付物

一个可运行、可登录、可解锁高级内容的 AI 产品。

工具调用与工作流设计

Eval 闭环

延迟与成本控制

身份与权限链路

Capstone 产品交付

为什么这张网能让人学得更深

每个节点都回答“它解决什么真实问题、学完后能交付什么”。

每个节点都绑定前置依赖,避免高级话题漂在空中。

每个节点都写清掌握证据和常见误区,课程不会只剩概念复述。

第 01 层:模型现实

先理解硬约束:token、能力边界、输出契约。

已上线Beginner

Token 预算

把 token 看成系统边界,而不是单纯账单问题。

预算会决定什么信息能常驻、什么必须检索、一次任务到底能承载多少证据和状态。

搜索种子词

token budgetcontext windowprompt cost
前置节点

无,这是底层入口节点。

核心判断问题

哪些信息应该常驻上下文,哪些只该按需注入?

哪些失败其实是信息过载或上下文冗余造成的?

掌握证据

你能把一个真实工作流拆成常驻上下文、临时任务状态和外部证据三层。

你能解释为什么 prompt 更长,常常意味着架构更差。

常见误区

把 token 只理解成成本问题。

把所有规则、样例和上下文都塞进一个永久大块里。

关键来源

What are tokens and how to count them?

OpenAI Help Center

查看来源

Context windows

Anthropic Docs

查看来源
已上线Beginner

模型能力边界

看清模型什么时候可靠,什么时候必须借助检索、工具或人工确认。

如果能力边界不清晰,团队会把模型弱点误判成 prompt 问题,然后一直在错误层上加指令。

搜索种子词

LLM limitationsmodel reliabilityhallucination boundaries
前置节点

Token 预算

核心判断问题

什么答案应该直接来自模型,什么必须建立在检索证据或工具结果上?

什么时候任务太模糊,需要先澄清、拆解,而不是直接出答案?

掌握证据

你能把一次失败判断成能力问题、上下文问题、数据问题或工具问题,而不是统称 prompt 不行。

你能为模型不该直接回答的任务设计 fallback 行为。

常见误区

因为回答流畅,就误以为模型真的知道。

默认模型能稳定回忆、稳定推理、稳定执行超出支持边界的任务。

关键来源

Why language models hallucinate

OpenAI

查看来源

Introducing the Model Spec

OpenAI

查看来源

Reduce hallucinations

Anthropic Docs

查看来源
已上线Beginner

提示设计与输出契约

从模糊提示词升级到明确任务 framing、结构化输出和机器可校验结果。

可靠系统需要能被代码、reviewer 和后续工作流稳定解析和验证的输出,而不是靠自然语言猜意思。

搜索种子词

structured outputsprompt contractjson schema LLM
前置节点

Token 预算

模型能力边界

核心判断问题

这个任务最合适的输出格式是什么,系统如何自动验证它?

哪些要求应该写成自然语言,哪些应该变成硬 schema 约束?

掌握证据

你能把一个自由回答任务改成有明确 schema 的输出契约。

你能解释为什么解析失败要 loud fail,而不是静默接受坏结果。

常见误区

让下游逻辑依赖自然语言句式而不是结构化字段。

把政策、风格和输出 schema 混成一个模糊指令块。

当前内容入口
关键来源

Structured outputs

OpenAI API Docs

查看来源

Function calling

OpenAI API Docs

查看来源

Prompt engineering

Anthropic Docs

查看来源

第 02 层:系统设计

把上下文、检索、工具调用做成显式结构,而不是继续堆长 prompt。

已上线Intermediate

上下文架构

把固定协议、任务状态和即时证据拆成不同生命周期的层。

模型只能使用你真正送进去的信息。好的上下文架构会降低漂移、重复和隐性耦合。

搜索种子词

context architecturecontext engineeringgiant prompt rewrite
前置节点

Token 预算

提示设计与输出契约

核心判断问题

哪些信息应该在任务之间保持稳定,哪些必须每次刷新?

证据在哪里进入、过期、被审计?

掌握证据

你能把一个巨型 prompt 重写成不同层,并给每层定义更新规则。

你能判断一次错误是证据缺失、状态陈旧还是协议冲突造成的。

常见误区

把所有规则、样例、证据都放进一个 system prompt。

不设计淘汰规则,导致历史上下文越堆越乱。

关键来源

Context windows

Anthropic Docs

查看来源

Prompt engineering

Anthropic Docs

查看来源
已上线Intermediate

检索与 Grounding

用检索控制新鲜度、来源和相关性,而不是假装模型应该记住一切。

有 grounding 的系统更容易验证、更容易维护,也更容易解释为什么这个答案值得信任。

搜索种子词

RAGretrieval groundingevidence injection
前置节点

Token 预算

上下文架构

核心判断问题

哪些信息应该按需检索,而不是永久留在上下文里?

检索之后,如何保留引用、来源和新鲜度信息?

掌握证据

你能为一个真实工作流画出查询、筛选、注入和引用的链路。

你能解释什么时候检索提高可靠性,什么时候只是把噪声塞进模型。

常见误区

把太多文档直接塞进 prompt,却没有排序和过滤。

自称 grounded,但实际上拿不出证据来源。

关键来源

Retrieval

OpenAI API Docs

查看来源

Context windows

Anthropic Docs

查看来源

Building effective agents

Anthropic Engineering

查看来源
已上线Intermediate

工具调用与工作流设计

把工具调用当成工作流设计问题,而不是把 agent 能力想象成魔法。

关键不在于模型会不会调工具,而在于系统知不知道什么时候先澄清、什么时候该行动、失败后如何恢复。

搜索种子词

tool useagent workflowOpenClaw tutorial
前置节点

模型能力边界

提示设计与输出契约

上下文架构

核心判断问题

哪些动作必须先有证据或确认,模型才有资格执行?

当链路依赖工具、provider 和 gateway 时,排错顺序应该是什么?

掌握证据

你能跑通一个工具工作流,并解释每个依赖节点在做什么。

你能把高频操作沉淀成 SOP 或 skill,而不是只会临场点点点。

常见误区

主链路没通,就先加更多工具和插件。

只看 UI,不探测 gateway、pairing 和 tool readiness。

关键来源

Agent orchestration and handoffs guide

OpenAI API Docs

查看来源

Function calling

OpenAI API Docs

查看来源

Building effective agents

Anthropic Engineering

查看来源

Writing effective tools for agents — with agents

Anthropic Engineering

查看来源

Agent middleware

LangChain Blog

查看来源

第 03 层:可靠性

让系统可评估、可调试、可控风险、可控制成本。

已上线Advanced

Eval 闭环

用真实失败样本、固定样本集和版本对比,主动改进系统。

没有 eval,你就无法区分这次是优化了、回归了,还是只运气好了一次。

搜索种子词

LLM evalsregression testingfailure samples
前置节点

模型能力边界

提示设计与输出契约

上下文架构

核心判断问题

第一批最值得变成 eval 样本的真实失败是什么?

每个指标服务的是上线、回滚,还是优化优先级?

掌握证据

你能从自己的真实失败里做出一个最小 eval 集。

你能解释 eval 结果如何改变产品决策,而不是只做更漂亮的仪表盘。

常见误区

用和真实业务脱节的 benchmark 代替 live failures。

把一次成功 demo 当成系统真的变好了。

关键来源

Evals

OpenAI API Docs

查看来源

Building effective agents

Anthropic Engineering

查看来源
已上线Advanced

可观测性与调试

把输入、证据、工具调用和输出串成 trace,让失败可重放、可定位。

不能重放的问题,就很难真正修好。可观测性会把神秘失败变成可拆解的系统问题。

搜索种子词

LLM observabilityprompt tracesagent debugging
前置节点

上下文架构

检索与 Grounding

工具调用与工作流设计

Eval 闭环

核心判断问题

要重放一次坏 case,系统必须记录哪些信息?

哪种 failure label 能帮助团队决定先修哪一层?

掌握证据

你能产出一条完整 run trace,包含 prompt、证据、工具链、输出和错误标签。

你能给出一条从系统状态开始,而不是从猜 prompt 开始的调试顺序。

常见误区

只记录最终答案,不记录证据链和工具链。

还没重放失败,就先改 prompt。

关键来源

Trace grading

OpenAI API Docs

查看来源

Agent evals

OpenAI API Docs

查看来源

Building effective agents

Anthropic Engineering

查看来源
已上线Advanced

Rubric 评分与可复查评估

把含糊的“感觉不错”拆成评分维度、grader 规则和可复查证据。

如果团队说不清好结果到底由哪些维度构成,改进就会退化成主观口味。Rubric 的作用是把失败讲清楚,把优先级排出来。

搜索种子词

LLM evaluation rubrictrace gradingAI 评分标准
前置节点

提示设计与输出契约

Eval 闭环

可观测性与调试

核心判断问题

这个 workflow 的质量到底由哪些维度决定:factuality、instruction following、citation、escalation judgment 还是别的?

怎样写 grader 规则,才能让第二个操作者或自动 grader 得出相近结论?

掌握证据

你能为一条真实 workflow 写出带维度、评分锚点和阈值的 rubric。

你能解释系统改好了什么:不只总分上升,而是哪一维度上升、为什么上升。

常见误区

把整个系统压成一个模糊的 pass/fail。

只看平均分,不保留每条 criterion 的失败痕迹。

关键来源

Graders

OpenAI API Docs

查看来源

Trace grading

OpenAI API Docs

查看来源

Agent evals

OpenAI API Docs

查看来源

Evaluation best practices

OpenAI API Docs

查看来源
已上线Advanced

Guardrails 与风险控制

从系统层控制 prompt injection、不安全动作、虚假确定性和策略漂移。

一个有用的工作流仍然可能不安全、可操纵、过度自信。风险控制不是法务附属,而是产品质量的一部分。

搜索种子词

prompt injectionLLM guardrailsAI risk control
前置节点

模型能力边界

提示设计与输出契约

工具调用与工作流设计

核心判断问题

哪些指令绝不能被用户内容或检索文本覆盖?

哪些动作必须在执行前要求确认?

掌握证据

你能识别自己工作流中的一个 prompt injection 或 unsafe action 路径,并给出缓解步骤。

你能解释政策文字和真正可执行 guardrail 的区别。

常见误区

把 safety 提示语当成 enforcement。

让用户输入或检索文档获得比系统规则更高的权限。

关键来源

Building guardrails for agents

OpenAI

查看来源

Mitigate jailbreaks

Anthropic Docs

查看来源

Reduce prompt leak

Anthropic Docs

查看来源

LLM01: Prompt Injection

OWASP for GenAI

查看来源
已上线Advanced

延迟与成本控制

在不破坏体验的前提下,平衡质量、速度和运行成本。

一个只能靠高延迟和高成本工作的链路,到了生产环境就会出问题。延迟和成本是产品约束,不只是财务约束。

搜索种子词

LLM latencycost optimizationresponse budget
前置节点

Token 预算

上下文架构

检索与 Grounding

可观测性与调试

核心判断问题

优先优化哪一层:模型选择、检索大小、输出长度还是编排逻辑?

用户真正感知延迟的位置在哪里,那里允许的 tradeoff 是什么?

掌握证据

你能找出一个工作流里最重要的两个延迟或成本杠杆,并设计实验。

你能解释压缩、路由、缓存或减少输出如何改变系统 tradeoff。

常见误区

还没测清 retrieval 浪费和输出膨胀,就先盯模型单价。

为了快和省,直接牺牲证据质量和用户信任。

关键来源

Latency optimization

OpenAI API Docs

查看来源

Cost optimization

OpenAI API Docs

查看来源

Choose the right model

Anthropic Docs

查看来源

Choosing the right LLM for the job

Burnwise

查看来源

Prompt caching

Anthropic Docs

查看来源

Background mode guide

OpenAI API Docs

查看来源
已上线Advanced

知识新鲜度与文档治理

把检索来源当成有负责人、更新节奏和过期规则的运营资产,而不是一堆向量。

就算做了 retrieval,如果取到的是过时政策、混乱版本或没有时效信号的文档,系统依然会稳定地答错。真正让 grounded 变可靠的是治理,不只是索引。

搜索种子词

RAG freshness文档治理知识库过时
前置节点

检索与 Grounding

可观测性与调试

模型能力边界

核心判断问题

哪些文档允许直接支持用户回答,如何证明它们还有效?

文档进入检索前,必须具备哪些 metadata、负责人和 refresh policy?

掌握证据

你能为一类真实知识源定义 freshness class、过期阈值和 owner。

你能解释一次坏答案到底是没检索到、检索到了旧证据,还是压根没有治理规则。

常见误区

以为文档索引一次就可以永远可靠。

把草稿、旧版本和正式版本混在一起,却没有优先级和 metadata 规则。

关键来源

Retrieval

OpenAI API Docs

查看来源

Check data freshness

Pinecone Docs

查看来源

Manage RAG documents

Pinecone Docs

查看来源
已上线Advanced

人工升级与 Review Queue

设计系统什么时候必须停下、交给人,以及交接时必须带走哪些上下文和证据。

真正可靠的 AI 产品不是“什么都敢答”,而是知道什么时候必须停、必须升级、必须把证据包交给人,不让伤害和误导继续积累。

搜索种子词

human in the loopreview queueAI 升级处理
前置节点

模型能力边界

Guardrails 与风险控制

可观测性与调试

工具调用与工作流设计

核心判断问题

什么情况应该触发 hard stop:证据不足、权限不足、风险过高还是政策敏感?

人工 reviewer 最少需要什么 handoff packet,才能不是盲接和重复劳动?

掌握证据

你能为一条真实 workflow 定义 hard stop、review queue owner、SLA 和 handoff packet。

你能解释为什么升级给人是质量路径,不是产品丢脸。

常见误区

只写“必要时转人工”,却没有触发规则和 owner。

升级时没有证据包,导致 reviewer 只能从头重建上下文。

关键来源

Why language models hallucinate

OpenAI

查看来源

Introducing the Model Spec

OpenAI

查看来源

Safety in building agents

OpenAI API Docs

查看来源

Hand over Fin AI Agent conversations to another support tool

Intercom Help

查看来源

第 04 层:交付

把工作流变成真实产品:身份、权限、订阅和上线验收都要连起来。

已上线Intermediate

身份与权限链路

把学习状态、账号身份和访问权限统一成一个产品状态。

教学产品只有在进度、订阅和账号状态跨设备、跨 session 保持一致时,才真正变成产品。

搜索种子词

Supabase authsubscription entitlementAI SaaS access control
前置节点

提示设计与输出契约

Eval 闭环

延迟与成本控制

核心判断问题

游客、已登录用户、已订阅用户在产品里的状态到底应该怎么变化?

站内权限状态的真相源到底是什么事件?

掌握证据

你能演示游客、登录用户、订阅用户看到的是不同产品状态。

你能解释为什么账号状态、billing 状态和 UI 状态绝不能漂移。

常见误区

把 success redirect 当成订阅真相源。

让 auth、billing 和页面状态各自独立演化。

关键来源

Evals

OpenAI API Docs

查看来源

Building effective agents

Anthropic Engineering

查看来源
已上线Advanced

Capstone 产品交付

把概念课、工作流、评估、身份和订阅串成一个别人能测试和验收的产品。

真正的深度学习者,不只是会讲术语,而是能交付一条完整产品链路,并拿出证据证明它可运行、可解释、可迭代。

搜索种子词

AI product capstoneship AI workflowAI SaaS project
前置节点

上下文架构

工具调用与工作流设计

Eval 闭环

身份与权限链路

核心判断问题

用户学完之后,除了一个完成勾,还真正留下了什么资产?

什么证据能证明这不是拼凑 demo,而是完整产品?

掌握证据

你能演示从学习、到账户、到高级课解锁、到知识卡沉淀的完整链路。

你能解释自己的架构选择,以及最难收口的链路是什么。

常见误区

只有很多功能页,没有一个完整产品故事。

只发布内容,不设计实践、验收和知识沉淀。

关键来源

Evals

OpenAI API Docs

查看来源

Building effective agents

Anthropic Engineering

查看来源

下一批最该补满的节点

未来扩课规则

每节新内容都必须挂到节点上

不要再写游离文章。要么扩展已有节点,要么先创建新节点,并写清前置依赖、搜索意图、掌握证据和常见误区。

节点从 seeded 变成 live,必须先有验收设计

只有当节点具备小测或诊断任务、学习证据产物和可迁移练习路径时,才配叫一节完整课程。

内容扩展按路径补,不按兴趣补

下一节该写什么,不看是不是有趣,而看它能不能补齐某条学习路径最大的断层。路径完整,比话题数量更重要。

大模型知识网络:从模型现实到产品交付的深度学习链路 | DepthPilot AI