2026-05-10 来源:LLM 训练的真相:Andrej Karpathy 的分享笔记
- 源文件:
source/_posts/llm-training-truth.md - 分类:AI探索
- 标签:AI原理
- 日期:2026-05-10 10:00:00
摘要
文章用「爬取、压缩、预测」三步概括(结合 Karpathy 分享)LLM 如何从海量互联网文本变成可用助手:预训练像「读过全世界所有书的书呆子」;权重是对语料的有损压缩,因而细节可能错、易产生幻觉;核心训练目标是下一词预测,对齐阶段(SFT、RLHF)才把基础模型拉成「说人话」的助手。文末用《剑网3》垂直场景类比四阶段,并引用讲座级算力成本量级(宜与原始讲座核对)。
关键观点(按原文结构)
- 预训练(爬取):吞入大规模互联网文本(文中称数万亿词元、数 TB 量级);得到的基础模型博学但不等于自然对话形态(叙述针对通用基础模型,非垂直领域模型)。
- 有损压缩与幻觉:语料不会逐字存入参数;文中举例约 100TB 文本压到约百 GB 级权重、压缩率约千倍量级——属作者笔记中的数量级比喻,引用请以原讲或实测为准。存储偏向模式与规律,细节记不清时会按统计规律生成看似合理的内容 → 与「幻觉」直觉相连;作者强调工程上应先核验再采用。
- 下一词预测:任务表述简单,为拟合分布被迫内化语法、常识与一定推理表现;文中将「智能」描述为在这一压力下的涌现式后果(隐喻性表述)。
- 对齐(SFT / RLHF):SFT 用人类编写的问答教规矩;文中提醒训练阶段提示与日常助手对话编排不是同一语境。RLHF 用多答案与人类排序/打分做对比学习;作者联想到应用层 Agent 开发中的对比打分实践。
- 《剑网3》类比:预训练吃设定与社区文本 → 指出大规模训练成本(文中转述 Karpathy:约 700B 参数、约 6000 块顶级 GPU、约 12 天、约 200 万美元量级)→ 指令微调用玩家 Q&A 约束回答形态 → RLHF 用玩家排序打磨风格与知识表现。
相关概念与证据链
- 大语言模型工作原理概览
- 来源:Gemini 摘要——Karpathy《大语言模型简介》演讲(YouTube)(视频主线与数字宜以此摘要页回指原片)
- How LLMs Work(可视化长文)
- 大模型「训练阶段」和日常助手、LLM Wiki 分别是什么关系
本页由助手根据 source/_posts/llm-training-truth.md 整理入库;2026-05-10。