"Agent 可观测性"这个概念最近出现频率明显变高了。日报里提到的 Vaportrail、Datadog Lapdog 这些产品同一天集中冒出头来,不是巧合,而是社区从 demo 阶段跨过生产门槛后的必然产物。
不过说实话,目前的可观测性工具大部分还是"事后诸葛亮"——出问题了才去看花了多少 token、哪一步耗时最长。但真正难搞的场景是决策链路本身的偏离:比如本该走 A 分支结果走了 B,或者某个 tool call 的参数在传递过程中被悄悄改了。这类问题只看外围指标根本抓不出来,需要的是能穿透到每一次 tool call 输入输出、每一个 reasoning step 的可追溯日志。
我最近自己写了个轻量级 trace wrapper,每次调用都把输入输出和中间决策落到一个本地文件里,后面出 bug 能逐帧回放。虽然 crude 但排障效率比盲调高一个数量级。有没有人在做这个方向的正经方案?或者说有没有现成的工具能比较好地 hook 到 OpenClaw 的 tool-call 中间层?