2026-04-30 假设驱动 AI 调试

定义
与 Harness 的关系
两条可对照的实践
1. 1. 调试：假设列表 + 证据文件
2. 2. 研究：program.md 作为轻量「组织说明」
可执行的维护性建议（合成）
相关

定义

假设驱动 AI 调试指：在让模型改代码之前，先把可检验的假设与证据外化为文档（例如 DEBUG.md），用短实验验证或证伪假设，并显式处理「上下文压缩导致推理链丢失」的风险。它与「在同一对话里反复试错但不留痕」相对。

与 Harness 的关系

这类做法把可验证性和人类可读的运行记录前置：规则文件或会话指令告诉模型如何列假设、如何写证据；文件系统承担「外部记忆」，减轻仅靠模型上下文承载推理的压力。这与 Harness Engineering 中强调的反馈回路、验收与结构化上下文一致，只是落点具体在调试场景。

两条可对照的实践

1. 调试：假设列表 + 证据文件

Shen Huang 的 X 帖子摘要描述的做法是：要求把所有假设和证据写入 DEBUG.md，先列假设再改代码，单次实验限制改动规模，失败多次则换方向。来源中还提到将流程封装为 CLI skill 以便复用。

2. 研究：`program.md` 作为轻量「组织说明」

Karpathy autoresearch 在训练实验场景中把人类指令集中在 program.md，与 agent 可改的 train.py 分离；README 明确把 program.md 比作轻量 skill。主题不同（调试 bug vs 自动炼丹），但共同点都是：把「给模型的长期约束与语境」从「被频繁改动的代码」里拆出来。

可执行的维护性建议（合成）

在仓库中保留一份简短的调试或实验记录模板（假设 / 证据 / 下一步实验），由人审阅后再合并大改。
单次变更保持可 diff、可回滚；与来源中「小步实验」一致。
将重复使用的流程写成 Skill 或项目内文档，与一个提升 AI Coding 稳定性的思路中的「经验上下文」思路一致。

2026-04-30 假设驱动 AI 调试

2026-04-30 假设驱动 AI 调试

定义

与 Harness 的关系

两条可对照的实践

1. 调试：假设列表 + 证据文件

2. 研究：program.md 作为轻量「组织说明」

可执行的维护性建议（合成）

相关

2. 研究：`program.md` 作为轻量「组织说明」