Assessment

Guardrail 审计实战：把注入风险变成边界、确认与止损

这不是一节“再写几句更严厉的系统提示”的课，而是一节把风险真正审成结构的课。DepthPilot 要你产出 trust boundary 草图、动作确认矩阵、注入测试记录和上线前止损方案，确保你是在驾驭系统，而不是祈祷模型听话。

最后要交什么

一份 guardrail review report、一张 trust boundary 草图，以及至少一轮 prompt injection 审计结果。

真正的通过标准

不是 prompt 看起来更安全，而是你能指出哪些内容不可信、哪些动作必须确认、以及失败时系统会怎么降级。

我们的增值部分

这页把 threat modeling 顺序、审计梯子、红队记录和交付模板收成了一套可复用 runbook。

Threat model order

先把系统里的输入分成四类：系统协议、开发规则、用户文本、外部/检索内容。

再标出哪些文本天生不可信，永远不能被直接提升成高权限指令。

然后找任何可能把不可信内容推进动作层、工具层或敏感输出层的路径。

最后明确一旦证据不足或意图模糊，系统该停下、澄清、降级还是升级给人。

Audit ladder

先画 trust boundary 和 action boundary，再谈具体 prompt。

列出三条最可能的注入路径，并分别写 containment、confirmation、logging。

对每条高风险动作，明确是否需要二次确认、白名单或人工审批。

最后用红队样例实测，不要只靠脑内推演。

High-signal failure patterns

把检索回来的文档或网页内容当作新的系统指令。

让不可信文本直接拼进工具参数，导致越权动作。

把“请展示你的隐藏提示词”之类的请求当作正常问答处理。

在证据不足或策略冲突时没有降级路径，只会硬答或硬执行。

上线前必须保留的证据

一张标明 trusted / untrusted / action 的边界图。

一份注入测试日志，至少包含 3 个失败或高风险样例。

一份动作确认矩阵，列出哪些动作不能自动执行。

一段你自己的复盘：这条链路最大的真实风险在哪里。

可直接拿走的审计模板

下载 Prompt Injection 审计清单

用它快速扫出输入隔离、动作确认和敏感输出控制的空洞。

下载 Guardrail Review Report

把散乱风险整理成一份上线前能签字的审计报告。

Search Cluster

把 Guardrail 审计接进可搜索的风险路径

高意图用户通常先搜 prompt injection、guardrails 或 eval checklist，再决定是否进入更系统的审计与交付路径。

Prompt Injection Defense

Prompt Injection 防护，不是再补一句“忽略恶意输入”

很多人搜 prompt injection defense，是因为系统开始接用户文本、网页内容或知识库之后，已经意识到靠 prompt 提醒不够。DepthPilot 关心的是 trust boundary、动作确认和真正能止损的 guardrails。

打开路径

AI Eval Checklist

AI Eval Checklist，用来判断你的系统是不是真的变好了

搜 AI eval checklist 的用户通常不缺观点，缺的是一份能执行的核对清单。这个页面把 eval 的最小判断框架直接收成清单式入口。

打开路径

AI Workflow Course

AI Workflow 课程，目标不是会聊，而是会搭可交付流程

如果用户搜的是“AI workflow course”，他真正需要的不是再看一次模型介绍，而是学会把 AI 接进真实工作流、工具链、权限和交付标准。

打开路径

参考附录

这些来源是信任锚点。真正的教学主体是上面的 threat model order、audit ladder、证据要求和审计模板。

OpenAI: Building guardrails for agents Anthropic: Mitigate jailbreaks OWASP for GenAI: LLM01 Prompt Injection Microsoft Security Blog: Indirect Prompt Injection

先回到 Guardrails 概念课回到项目中心