2026-06-24 过拟合是什么
- 性质:对话沉淀为可复用 Q&A(无独立
source/_posts剪藏)。 - 日期:2026-06-24
问题背景
机器学习与 LLM 训练语境里常听到「过拟合」——它和欠拟合、泛化、正则化是什么关系?在文档检索等工程场景里又该怎么类比理解?
结论
过拟合(overfitting) 指模型在训练数据上学得太死板:把噪声和偶然规律也当成真规律记住,训练集表现很好,换到未见数据(验证集、测试集、线上)反而变差。
一句话:背熟了训练集,没学到能推广的规律。
直观理解
| 正常学习 | 过拟合 | |
|---|---|---|
| 做法 | 抓一般规律 | 记住样本细节与例外 |
| 比喻 | 学方法 | 背答案 |
| 信号 | 训练、测试都不错 | 训练好、测试差 |
曲线拟合例子:过拟合的曲线在每个训练点都精确穿过,中间剧烈抖动;训练误差 ≈ 0,新点预测往往离谱。
与欠拟合对照
| 欠拟合 | 过拟合 | |
|---|---|---|
| 表现 | 训练集、测试集都差 | 训练集好,测试集差 |
| 原因 | 模型太简单 / 特征不够 | 模型太复杂 / 数据太少 |
| 比喻 | 没学会 | 学过头、死记硬背 |
常见原因
- 模型太复杂(参数多、层数深),表达能力过强
- 训练数据太少,撑不起复杂模型
- 训练太久,在噪声上反复优化
- 特征过多或含噪声,学到虚假关联
常见应对
- 更多、更好的数据
- 简化模型(减参、降维、剪枝)
- 正则化(L1/L2、dropout 等),惩罚过于复杂的解
- 早停(early stopping):验证集变差即停训
- 交叉验证:更可靠估计泛化能力
- 数据增强:扩充样本多样性
LLM 训练语境(简述)
预训练用「下一词预测」拟合海量语料分布;SFT / RLHF 在较小高质量集上继续对齐。若对齐数据极少而模型容量极大,也可能在对齐集上过拟合(话术像训练样本、泛化到新话题差)——这与日常说的「幻觉」「记错细节」是不同维度的问题,但同属「拟合与泛化」家族。训练阶段辨析见 大语言模型工作原理概览、大模型「训练阶段」和日常助手、LLM Wiki 分别是什么关系。
检索场景的类比
关键词重合召回 若在现有文档上手工调停用词、权重、截断行数,使下拉结果「刚好」贴合当前库,却对新文档或换一种问法漏召、乱召,可类比为过拟合:对训练语料(现有笔记)过拟合,泛化到新 query 差。缓解方向是更稳的抽词规则、FTS5 / embedding 等更强泛化层,而非继续堆特例。
另见
- 大语言模型工作原理概览
- LLM 训练的真相(有损压缩、对齐与拟合分布)
- 大模型「训练阶段」和日常助手、LLM Wiki 分别是什么关系
- 关键词重合召回(检索侧「过拟合」类比)
Query 草稿:Cursor Agent;2026-06-24。