摘要

面向大众的 滚动式可视化 讲解:从互联网文本采集与过滤、分词(BPE)、Transformer 结构,到预训练、推理、基础模型与后训练、心理类比、RAG、安全与整条管线。页面自述基于 Andrej Karpathy 的技术向深入讲解,并给出前沿模型量级的示意数字(如万亿 token、数百 B 参数、数十 TB 文本等,强调数量级而非精确值)。

与本仓库其它条目的关系

关键点(据页面结构归纳)

  • 数据管线:Common Crawl 类来源 → URL/语言/去重/PII 等过滤 → 高质量语料集;强调「质与多样性」对最终模型的影响。
  • Tokenization:子词/BPE、词表规模与「为何不用纯词」的直觉。
  • 章节覆盖(导航可见):Intro、Data、Tokens、Training、Inference、Base Model、Post-Train、Psychology、RAG、Security、Pipeline 等,适合按模块跳读。

本页为外部站点摘要;细节与动效以原站为准。整理:助手;2026-05-10。