DP

DepthPilot AI

System-Level Learning

Assessment

Latency / Cost 审计实战:先找浪费,再谈模型价格

这一课不让你一上来就换模型,而是逼你把请求数、上下文膨胀、输出长度、缓存空间和异步机会审清楚。DepthPilot 要你产出的是可签字的性能预算,而不是一句“感觉有点慢、有点贵”。

最后要交什么

一份 latency/cost audit、一份 performance budget report,以及一张明确的优化优先级列表。

真正的通过标准

不是把模型切便宜了,而是你能解释关键路径、用户感知延迟、缓存空间和降级策略到底在哪一层生效。

我们的增值部分

这页把 baseline 顺序、审计梯子、常见浪费模式和交付模板收成了一套实际 runbook。

Baseline order

先定义用户什么时候真正感觉系统慢,再定义后台什么时候真的耗时长。

把每一步的请求数、输入大小、输出大小和是否阻塞关键路径记录下来。

拆开固定前缀和动态载荷,判断哪些内容正在被重复发送。

标出哪些步骤必须同步完成,哪些其实可以移到后台或分阶段返回。

Optimization ladder

先砍重复请求、过长输出和低价值检索,再谈模型切换。

给稳定前缀、工具定义和重复检索片段寻找缓存机会。

为用户先流出第一个有用结果,再让非关键工作继续在后台跑。

最后补上批处理、异步、降级和预算超限时的止损规则。

High-signal waste patterns

每次请求都重发一大段稳定系统提示,却没有缓存。

检索塞进太多上下文,真正有用的证据只占一小部分。

机器阶段仍然生成大段自然语言,而不是短结构化结果。

后台完全可以异步的任务被放在用户等待链路上。

上线前必须保留的证据

一份关键路径表,列出每一步是否阻塞用户。

一份请求库存记录,包含输入、输出和缓存候选。

一份优化优先级表,说明先做什么、预期节省什么。

一段你自己的复盘:真正最贵最慢的环节是不是原来以为的地方。

Search Cluster

把性能审计接进可搜索的优化路径

高意图用户往往先从 latency、cost optimization、workflow automation 进入,再决定是否做完整审计和预算管理。

参考附录

这些来源是方法锚点。课程主体是上面的 baseline order、optimization ladder、证据要求和预算模板。

Latency / Cost 审计实战:先找系统浪费,再决定模型与架构 | DepthPilot AI