2026-05-10 大模型「训练阶段」和日常助手、LLM Wiki 分别是什么关系

问题背景
1. OpenClaw、Hermes 等是不是在「做模型微调」？
2. 「训练阶段」和「推理编排」差在哪里？
3. 我在交互里写得很认真，算不算在提供「SFT 那种高质量对话」？
4. 本仓库的 LLM Wiki（博文 + wiki/ 维护）属于训练 pipeline 的哪一阶段？
5. 「文本即世界」能否成立？
另见

性质：对话沉淀为可复用 Q&A（无独立 source/_posts 剪藏）。
日期：2026-05-10

问题背景

在大语言模型工作原理概览的框架里，预训练之后的 SFT / RLHF 常被说成「用高质量对话把模型对齐成助手」。日常使用的 OpenClaw、Hermes 以及本仓库的 LLM 维护 wiki 容易和这一阶段混淆，需要分清改权重与改上下文/体外知识。

1. OpenClaw、Hermes 等是不是在「做模型微调」？

一般不是。 工程上常说的微调指用数据对模型做 梯度更新、改动参数（全参、LoRA、厂商微调 API 等）。

OpenClaw、Hermes 常见形态是：在固定 checkpoint 上推理——system prompt、AGENTS、记忆文件、工具（MCP）、网关路由等，属于 推理时编排 / 上下文工程，不必然触碰权重。

	微调	典型 OpenClaw / Hermes
是否改权重	是	一般否
阶段	训练	推理与系统集成

2. 「训练阶段」和「推理编排」差在哪里？

训练：动的是权重；离线、批量、成本高；产物是可分发的新模型或 adapter。
推理：动的是当次请求的上下文（指令、历史、工具输出、检索片段）；在线、迭代快；同一权重可反复试 prompt。

直觉：微调像改「脑子里长期连线」；编排像换「当场给的题目和草稿纸」。

3. 我在交互里写得很认真，算不算在提供「SFT 那种高质量对话」？

机制不同。 SFT 数据通常是成规模、离线的标注对话，用于 backprop 更新参数。

用户单轮或多轮聊天主要进入当前会话上下文，会强烈影响当次及后续几轮行为（含 in-context learning / few-shot），但默认不等于你在给自己用的模型做 SFT，除非产品明确提供「用你的对话训练/微调」且实际跑了训练任务。对话是否进入厂商全局训练集，取决于隐私政策与开关，与「每条消息 = 一次梯度更新」不是一回事。

4. 本仓库的 LLM Wiki（博文 + `wiki/` 维护）属于训练 pipeline 的哪一阶段？

不属于预训练 / SFT / RLHF 中的任一阶段；与训练流水线正交。

ingest、摘要、互链发生在 调用已训模型做推理的过程中；沉淀物在 wiki/*.md 等文件，是 持久化体外知识层（system of record），供后续会话检索或塞进上下文，而不是写进权重。

类比：训练像在铸剑；LLM Wiki 像在写剑谱、整理库房——不是淬火工序，但下次用剑时可按剑谱对齐行为。

5. 「文本即世界」能否成立？

仅在限定前提下可作认识论表述：对以文本为主预训练的模型，可观察的训练信号高度文本化，世界知识经文本中介进入参数。

不宜说成本体论「现实世界就是文本」。多模态模型还引入非纯文本通道，表述上可改为「训练里接触到的世界以数据形态（文本为主或多模态）进入模型」。

另见

Query 草稿：助手整理本轮讨论；2026-05-10。

2026-05-10 大模型「训练阶段」和日常助手、LLM Wiki 分别是什么关系

2026-05-10 大模型「训练阶段」和日常助手、LLM Wiki 分别是什么关系

问题背景

1. OpenClaw、Hermes 等是不是在「做模型微调」？

2. 「训练阶段」和「推理编排」差在哪里？

3. 我在交互里写得很认真，算不算在提供「SFT 那种高质量对话」？

4. 本仓库的 LLM Wiki（博文 + wiki/ 维护）属于训练 pipeline 的哪一阶段？

5. 「文本即世界」能否成立？

另见

4. 本仓库的 LLM Wiki（博文 + `wiki/` 维护）属于训练 pipeline 的哪一阶段？