摘要

文章用「爬取、压缩、预测」三步概括(结合 Karpathy 分享)LLM 如何从海量互联网文本变成可用助手:预训练像「读过全世界所有书的书呆子」;权重是对语料的有损压缩,因而细节可能错、易产生幻觉;核心训练目标是下一词预测,对齐阶段(SFT、RLHF)才把基础模型拉成「说人话」的助手。文末用《剑网3》垂直场景类比四阶段,并引用讲座级算力成本量级(宜与原始讲座核对)。

关键观点(按原文结构)

  • 预训练(爬取):吞入大规模互联网文本(文中称数万亿词元、数 TB 量级);得到的基础模型博学但不等于自然对话形态(叙述针对通用基础模型,非垂直领域模型)。
  • 有损压缩与幻觉:语料不会逐字存入参数;文中举例约 100TB 文本压到约百 GB 级权重、压缩率约千倍量级——属作者笔记中的数量级比喻,引用请以原讲或实测为准。存储偏向模式与规律,细节记不清时会按统计规律生成看似合理的内容 → 与「幻觉」直觉相连;作者强调工程上应先核验再采用。
  • 下一词预测:任务表述简单,为拟合分布被迫内化语法、常识与一定推理表现;文中将「智能」描述为在这一压力下的涌现式后果(隐喻性表述)。
  • 对齐(SFT / RLHF):SFT 用人类编写的问答教规矩;文中提醒训练阶段提示与日常助手对话编排不是同一语境。RLHF 用多答案与人类排序/打分做对比学习;作者联想到应用层 Agent 开发中的对比打分实践。
  • 《剑网3》类比:预训练吃设定与社区文本 → 指出大规模训练成本(文中转述 Karpathy:约 700B 参数、约 6000 块顶级 GPU、约 12 天、约 200 万美元量级)→ 指令微调用玩家 Q&A 约束回答形态 → RLHF 用玩家排序打磨风格与知识表现。

相关概念与证据链


本页由助手根据 source/_posts/llm-training-truth.md 整理入库;2026-05-10。