• 类型:用户提供的 Gemini 对话摘录整理入 wiki(非博客 source/_posts);细节以原视频为准。
  • 原视频https://www.youtube.com/watch?v=zjkBMFhNj_g(Andrej Karpathy,约一小时入门向演讲,常见标题含「Intro to Large Language Models」类表述)
  • 分类:AI探索
  • 标签:AI原理
  • 日期:2026-05-10

摘要

演讲将 LLM 描述为计算中的一种新范式:不仅是文本生成器,还可结合工具与多模态,作为「通用解决平台」。叙事主线包括:LLM 由什么组成、预训练到对齐与 RLHF 的管线、面向「系统 2」与自举改进的展望、以及越狱/提示词注入/数据投毒等新型风险。

要点(按演讲结构)

1. LLM 是什么(两类文件)

  • 参数文件:神经网络权重(摘要举例:Llama-2-70B 约 700 亿参数、约 140GB 量级;具体数字以官方为准)。
  • 运行代码:推理可用极简实现(摘要称约数百行 C 级代码量级,意在说明「推理循环」可很紧凑)。
  • 能力来源:在海量文本上做「下一个词」预测,迫使模型内化统计规律;常被比喻为对互联网文本的有损压缩(摘要中时间点约 07:26)。
  • 与「世界知识」的关系:为把预测做好,模型会学到常识与一定推理模式,但并非直连数据库;因此会出现细节性错误(如具体 ISBN),属于概率模拟文本而非逐项事实核验的后果。

2. 训练阶段:基础模型 → 助手

  1. 预训练:海量互联网语料、耗资与算力规模极大;得到的是基础模型,更擅长续写/模仿文档形态,不天然等于对话助手(摘要约 18:04)。
  2. 监督微调(SFT):人类编写高质量问答对话(摘要称约十万量级对话),把行为拉向「直接作答的助手」(摘要约 19:13)。
  3. RLHF:标注者对多个候选回答排序,用偏好信号优化质量与安全(摘要约 21:14)。展开摘要补充:人类往往更擅长「比较哪个更好」而非一次写完美答案。

3. 展望方向

  • 系统 1 / 系统 2(借《思考,快与慢》):当前生成多为固定节奏的「快思考」;希望引入可延长内部推理、规划与试错空间的「慢思考」(摘要约 37:09)。
  • 自我提升:类比 AlphaGo,探索自我对弈/自举能否超越纯人类标注上限(摘要约 38:06)。
  • LLM 操作系统隐喻:LLM 作为协调中心——上下文窗口类比内存、多模态类比 I/O、工具调用类比系统调用,联合算力与外部软件(浏览器、解释器等)处理复杂任务(摘要约 42:21)。

4. 安全与挑战

  • 越狱(Jailbreak):通过角色扮演、情感叙事等诱导绕过策略(摘要举「奶奶」类案例,约 46:16)。
  • 提示词注入(Prompt Injection):恶意指令混在「待处理数据」(网页、简历、文档)中,模型难以稳定区分指令与数据;被类比为 LLM 时代的「SQL 注入」类问题(摘要约 52:24)。
  • 数据投毒:在预训练数据中下毒、植入后门式行为(摘要约 56:24)。

展开摘要中的补充数字(宜核对原讲)

Gemini 展开轮次提到例如「约 6000 块 GPU、跑 12 天、约 200 万美元」等预训练成本量级——此处仅作转述;若需引用,应以视频原话或后续官方材料核实。

另见


本页由助手根据用户提供的 Gemini 摘要整理并入库;2026-05-10。