• 性质:对话沉淀为可复用 Q&A(无独立 source/_posts 剪藏)。
  • 日期:2026-06-24

问题背景

机器学习与 LLM 训练语境里常听到「过拟合」——它和欠拟合、泛化、正则化是什么关系?在文档检索等工程场景里又该怎么类比理解?

结论

过拟合(overfitting) 指模型在训练数据上学得太死板:把噪声和偶然规律也当成真规律记住,训练集表现很好,换到未见数据(验证集、测试集、线上)反而变差。

一句话:背熟了训练集,没学到能推广的规律。

直观理解

正常学习 过拟合
做法 抓一般规律 记住样本细节与例外
比喻 学方法 背答案
信号 训练、测试都不错 训练好、测试差

曲线拟合例子:过拟合的曲线在每个训练点都精确穿过,中间剧烈抖动;训练误差 ≈ 0,新点预测往往离谱。

与欠拟合对照

欠拟合 过拟合
表现 训练集、测试集都差 训练集好,测试集差
原因 模型太简单 / 特征不够 模型太复杂 / 数据太少
比喻 没学会 学过头、死记硬背

常见原因

  1. 模型太复杂(参数多、层数深),表达能力过强
  2. 训练数据太少,撑不起复杂模型
  3. 训练太久,在噪声上反复优化
  4. 特征过多或含噪声,学到虚假关联

常见应对

  • 更多、更好的数据
  • 简化模型(减参、降维、剪枝)
  • 正则化(L1/L2、dropout 等),惩罚过于复杂的解
  • 早停(early stopping):验证集变差即停训
  • 交叉验证:更可靠估计泛化能力
  • 数据增强:扩充样本多样性

LLM 训练语境(简述)

预训练用「下一词预测」拟合海量语料分布;SFT / RLHF 在较小高质量集上继续对齐。若对齐数据极少而模型容量极大,也可能在对齐集上过拟合(话术像训练样本、泛化到新话题差)——这与日常说的「幻觉」「记错细节」是不同维度的问题,但同属「拟合与泛化」家族。训练阶段辨析见 大语言模型工作原理概览大模型「训练阶段」和日常助手、LLM Wiki 分别是什么关系

检索场景的类比

关键词重合召回 若在现有文档上手工调停用词、权重、截断行数,使下拉结果「刚好」贴合当前库,却对新文档或换一种问法漏召、乱召,可类比为过拟合:对训练语料(现有笔记)过拟合,泛化到新 query 差。缓解方向是更稳的抽词规则、FTS5 / embedding 等更强泛化层,而非继续堆特例。

另见


Query 草稿:Cursor Agent;2026-06-24。