• 性质:对话沉淀为可复用 Q&A(无独立 source/_posts 剪藏)。
  • 日期:2026-05-10

问题背景

大语言模型工作原理概览 的框架里,预训练之后的 SFT / RLHF 常被说成「用高质量对话把模型对齐成助手」。日常使用的 OpenClaw、Hermes 以及本仓库的 LLM 维护 wiki 容易和这一阶段混淆,需要分清改权重改上下文/体外知识

1. OpenClaw、Hermes 等是不是在「做模型微调」?

一般不是。 工程上常说的 微调指用数据对模型做 梯度更新、改动参数(全参、LoRA、厂商微调 API 等)。

OpenClaw、Hermes 常见形态是:在固定 checkpoint 上推理——system prompt、AGENTS、记忆文件、工具(MCP)、网关路由等,属于 推理时编排 / 上下文工程,不必然触碰权重。

微调 典型 OpenClaw / Hermes
是否改权重 一般否
阶段 训练 推理与系统集成

2. 「训练阶段」和「推理编排」差在哪里?

  • 训练:动的是权重;离线、批量、成本高;产物是可分发的新模型或 adapter。
  • 推理:动的是当次请求的上下文(指令、历史、工具输出、检索片段);在线、迭代快;同一权重可反复试 prompt。

直觉:微调像改「脑子里长期连线」;编排像换「当场给的题目和草稿纸」。

3. 我在交互里写得很认真,算不算在提供「SFT 那种高质量对话」?

机制不同。 SFT 数据通常是成规模、离线的标注对话,用于 backprop 更新参数

用户单轮或多轮聊天主要进入当前会话上下文,会强烈影响当次及后续几轮行为(含 in-context learning / few-shot),但默认不等于你在给自己用的模型做 SFT,除非产品明确提供「用你的对话训练/微调」且实际跑了训练任务。对话是否进入厂商全局训练集,取决于隐私政策与开关,与「每条消息 = 一次梯度更新」不是一回事。

4. 本仓库的 LLM Wiki(博文 + wiki/ 维护)属于训练 pipeline 的哪一阶段?

不属于预训练 / SFT / RLHF 中的任一阶段;与训练流水线 正交

ingest、摘要、互链发生在 调用已训模型做推理的过程中;沉淀物在 wiki/*.md 等文件,是 持久化体外知识层(system of record),供后续会话检索或塞进上下文,而不是写进权重。

类比:训练像在铸剑;LLM Wiki 像在写剑谱、整理库房——不是淬火工序,但下次用剑时可按剑谱对齐行为。

5. 「文本即世界」能否成立?

仅在限定前提下可作认识论表述:对以文本为主预训练的模型,可观察的训练信号高度文本化,世界知识经文本中介进入参数。

不宜说成本体论「现实世界就是文本」。多模态模型还引入非纯文本通道,表述上可改为「训练里接触到的世界以数据形态(文本为主或多模态)进入模型」。

另见


Query 草稿:助手整理本轮讨论;2026-05-10。