在用 Agent 时,我经常在想:这背后的 LLM(大语言模型) 到底是怎么从一堆乱七八糟的数据,变成现在这个能写代码、能八卦的”赛博大脑”的?

最近结合 Andrej Karpathy 的分享,我把 LLM 的诞生拆解成了三个核心步骤:爬取、压缩、预测

一、爬取:一个看过全世界所有书的”书呆子”

大模型的第一步是预训练 (Pre-training)。它像一个贪婪的阅读者,吞掉了数万亿词元(数 TB)的互联网文本,包括网页、书籍、代码和百科等,相当于看过了全世界几乎所有的书(这里讲的是基础大模型,不是垂直领域模型,后面的叙述也是基于这个事实)。

但这些数据质量参差不齐,这个阶段的模型虽然”博学”,但它只是个书呆子——它看过了所有信息,却没人教它怎么正常说话。

二、有损压缩:为什么模型会产生”幻觉”?

模型并不会像硬盘一样存下原文,而是进行了一次极高倍率的有损压缩 ,我感觉主要还是成本与效率的取舍。

  • 压缩率:100TB 的文本会被转化为仅百 GB 左右的参数文件(权重),压缩率高达 1000 倍。
  • 逻辑存储:因为空间有限,模型记不住每个标点,它只能记住文本背后的逻辑、模式和规律

这种”有损”特性直接就导致了幻觉 (Hallucination) ,当模型记不清细节(比如某个具体的书号)时,它会根据记住的统计规律编造一个看似合理的答案 ,因为它记住的是”神韵”,而非精确的事实,也就是俗称的照猫画虎,但是这只老虎并非真实存在。

所以 AI 说的东西我们做技术的,一般都会先去 check 一些真实性再考虑要不要采用,至少我是这样。

三、神经网络预测:从预测词语进阶到智能

LLM 的核心任务极其简单:预测下一个词 (Next Token Prediction)

为了完美地预测”爱因斯坦提出了____“后面的内容,模型被迫在参数中存储常识、语法甚至推理能力。”智能”,就在这种极致的预测要求中出现了

四、关键的对齐:如何让”书呆子”学会说人话?

要让这个只会”做梦”的基础模型变成好用的助手(如 ChatGPT),必须经过微调 (Fine-tuning)

  1. 对齐 (SFT):雇佣人类编写问答,教模型规矩——“你是助手,要礼貌回答,不要无休止地续写网页” ,注意这个是在模型训练阶段写的提示词,跟我们平常跟 AI 助手聊天不是一个场景,我们的日常输入助手输出是后续的编排了,不要混淆。
  2. 强化学习 (RLHF):让模型给出多个答案并由人类打分,通过对比学习,让回答更有”人味” 。说到这个我想起我们团队去年有把这个对比学习用到 AGENT 开发过程中,我好像还写了篇文章,如何让 AI 给生成的内容打分,做对比,产出更优质的内容(比如剧本),说明模型训练中的一些方法,在后续应用层也是一定借鉴作用的。

五、举个例子:训练一个《剑网3》大模型

我们可以把这个过程代入到具体场景中,假如我们要训练一个《剑网3》大模型

  • 第一阶段(预训练):模型汲取所有的官方剧情、门派设定、贴吧攻略甚至门派频道的聊天记录,学会一些基础知识,比如:”天策府”后面大概率跟着”长枪”。
  • 第二阶段(训练投入):根据 Karpathy 的讲座,可以知道这是一个极其烧钱的过程,训练一个 700 亿参数的模型,可能需要 6000 块顶级 GPU 运行 12 天,耗资约 200 万美元,可见这不是我们个人可以做到的事情。
  • 第三阶段(指令微调):资深玩家上场,编写数万条 Q&A,教模型:当用户问”纯阳宫在哪里”时,直接回答”华山”,而不是开始写武侠小说,乱编不相关的剧情。
  • 第四阶段(强化学习,RLHF):让模型生成多个答案,由玩家排序,打分,最终训练出一个既懂专业知识、说话又符合门派人设的游戏助手。

综上,LLM 的本质其实是互联网文档的”模仿者”,它通过对海量知识的有损压缩,在参数中重建了世界的逻辑。我们现在的每一次对话,其实都是在通过”对齐”技术,引导这个正在做梦的庞然大物,给出一个符合人类逻辑的切片。

参考文献

  1. Andrej Karpathy. Intro to Large Language Models(YouTube 演讲,入门向;文中管线、有损压缩隐喻与算力量级等多据此整理). https://www.youtube.com/watch?v=zjkBMFhNj_g
  2. How LLMs Work — A Visual Deep Dive(ynarwal.github.io 可视化长文;正文自述基于 Karpathy 技术向材料,可与演讲对照阅读). https://ynarwal.github.io/how-llms-work/index.html
  3. Long Ouyang 等. Training language models to follow instructions with human feedback(InstructGPT;监督微调与人类反馈强化学习 RLHF 的经典表述). arXiv:2203.02155. https://arxiv.org/abs/2203.02155