2026-06-03 来源：Gemini 摘要——Karpathy《大语言模型简介》演讲（YouTube）

目录

摘要
要点（按演讲结构）
展开摘要中的补充数字（宜核对原讲）
另见

类型：用户提供的 Gemini 对话摘录整理入 wiki（非博客 source/_posts）；细节以原视频为准。
原视频：https://www.youtube.com/watch?v=zjkBMFhNj_g（Andrej Karpathy，约一小时入门向演讲，常见标题含「Intro to Large Language Models」类表述）
分类：AI探索
标签：AI原理
日期：2026-05-10

摘要

演讲将 LLM 描述为计算中的一种新范式：不仅是文本生成器，还可结合工具与多模态，作为「通用解决平台」。叙事主线包括：LLM 由什么组成、预训练到对齐与 RLHF 的管线、面向「系统 2」与自举改进的展望、以及越狱/提示词注入/数据投毒等新型风险。

要点（按演讲结构）

1. LLM 是什么（两类文件）

参数文件：神经网络权重（摘要举例：Llama-2-70B 约 700 亿参数、约 140GB 量级；具体数字以官方为准）。
运行代码：推理可用极简实现（摘要称约数百行 C 级代码量级，意在说明「推理循环」可很紧凑）。
能力来源：在海量文本上做「下一个词」预测，迫使模型内化统计规律；常被比喻为对互联网文本的有损压缩（摘要中时间点约 07:26）。
与「世界知识」的关系：为把预测做好，模型会学到常识与一定推理模式，但并非直连数据库；因此会出现细节性错误（如具体 ISBN），属于概率模拟文本而非逐项事实核验的后果。

2. 训练阶段：基础模型 → 助手

预训练：海量互联网语料、耗资与算力规模极大；得到的是基础模型，更擅长续写/模仿文档形态，不天然等于对话助手（摘要约 18:04）。
监督微调（SFT）：人类编写高质量问答对话（摘要称约十万量级对话），把行为拉向「直接作答的助手」（摘要约 19:13）。
RLHF：标注者对多个候选回答排序，用偏好信号优化质量与安全（摘要约 21:14）。展开摘要补充：人类往往更擅长「比较哪个更好」而非一次写完美答案。

3. 展望方向

系统 1 / 系统 2（借《思考，快与慢》）：当前生成多为固定节奏的「快思考」；希望引入可延长内部推理、规划与试错空间的「慢思考」（摘要约 37:09）。
自我提升：类比 AlphaGo，探索自我对弈/自举能否超越纯人类标注上限（摘要约 38:06）。
LLM 操作系统隐喻：LLM 作为协调中心——上下文窗口类比内存、多模态类比 I/O、工具调用类比系统调用，联合算力与外部软件（浏览器、解释器等）处理复杂任务（摘要约 42:21）。

4. 安全与挑战

越狱（Jailbreak）：通过角色扮演、情感叙事等诱导绕过策略（摘要举「奶奶」类案例，约 46:16）。
提示词注入（Prompt Injection）：恶意指令混在「待处理数据」（网页、简历、文档）中，模型难以稳定区分指令与数据；被类比为 LLM 时代的「SQL 注入」类问题（摘要约 52:24）。
数据投毒：在预训练数据中下毒、植入后门式行为（摘要约 56:24）。

展开摘要中的补充数字（宜核对原讲）

Gemini 展开轮次提到例如「约 6000 块 GPU、跑 12 天、约 200 万美元」等预训练成本量级——此处仅作转述；若需引用，应以视频原话或后续官方材料核实。

另见

LLM 训练的真相：Andrej Karpathy 的分享笔记 — 仓库内 source/_posts 笔记，与本文主题同脉络
How LLMs Work（可视化长文，Karpathy 脉络） — https://ynarwal.github.io/how-llms-work/index.html
大语言模型工作原理概览
Karpathy autoresearch（仓库）（同一作者，主题不同：自动研究/训练脚本组织）
LLM Knowledge Bases

本页由助手根据用户提供的 Gemini 摘要整理并入库；2026-05-10。