DP

DepthPilot AI

System-Level Learning

Assessment

Guardrail 审计实战:把注入风险变成边界、确认与止损

这不是一节“再写几句更严厉的系统提示”的课,而是一节把风险真正审成结构的课。DepthPilot 要你产出 trust boundary 草图、动作确认矩阵、注入测试记录和上线前止损方案,确保你是在驾驭系统,而不是祈祷模型听话。

最后要交什么

一份 guardrail review report、一张 trust boundary 草图,以及至少一轮 prompt injection 审计结果。

真正的通过标准

不是 prompt 看起来更安全,而是你能指出哪些内容不可信、哪些动作必须确认、以及失败时系统会怎么降级。

我们的增值部分

这页把 threat modeling 顺序、审计梯子、红队记录和交付模板收成了一套可复用 runbook。

Threat model order

先把系统里的输入分成四类:系统协议、开发规则、用户文本、外部/检索内容。

再标出哪些文本天生不可信,永远不能被直接提升成高权限指令。

然后找任何可能把不可信内容推进动作层、工具层或敏感输出层的路径。

最后明确一旦证据不足或意图模糊,系统该停下、澄清、降级还是升级给人。

Audit ladder

先画 trust boundary 和 action boundary,再谈具体 prompt。

列出三条最可能的注入路径,并分别写 containment、confirmation、logging。

对每条高风险动作,明确是否需要二次确认、白名单或人工审批。

最后用红队样例实测,不要只靠脑内推演。

High-signal failure patterns

把检索回来的文档或网页内容当作新的系统指令。

让不可信文本直接拼进工具参数,导致越权动作。

把“请展示你的隐藏提示词”之类的请求当作正常问答处理。

在证据不足或策略冲突时没有降级路径,只会硬答或硬执行。

上线前必须保留的证据

一张标明 trusted / untrusted / action 的边界图。

一份注入测试日志,至少包含 3 个失败或高风险样例。

一份动作确认矩阵,列出哪些动作不能自动执行。

一段你自己的复盘:这条链路最大的真实风险在哪里。

Search Cluster

把 Guardrail 审计接进可搜索的风险路径

高意图用户通常先搜 prompt injection、guardrails 或 eval checklist,再决定是否进入更系统的审计与交付路径。

参考附录

这些来源是信任锚点。真正的教学主体是上面的 threat model order、audit ladder、证据要求和审计模板。

Guardrail 审计实战:Prompt Injection、动作确认与止损设计 | DepthPilot AI