2026-06-24 过拟合是什么

问题背景
结论
直观理解
与欠拟合对照
常见原因
常见应对
LLM 训练语境（简述）
检索场景的类比
另见

性质：对话沉淀为可复用 Q&A（无独立 source/_posts 剪藏）。
日期：2026-06-24

问题背景

机器学习与 LLM 训练语境里常听到「过拟合」——它和欠拟合、泛化、正则化是什么关系？在文档检索等工程场景里又该怎么类比理解？

结论

过拟合（overfitting） 指模型在训练数据上学得太死板：把噪声和偶然规律也当成真规律记住，训练集表现很好，换到未见数据（验证集、测试集、线上）反而变差。

一句话：背熟了训练集，没学到能推广的规律。

直观理解

	正常学习	过拟合
做法	抓一般规律	记住样本细节与例外
比喻	学方法	背答案
信号	训练、测试都不错	训练好、测试差

曲线拟合例子：过拟合的曲线在每个训练点都精确穿过，中间剧烈抖动；训练误差 ≈ 0，新点预测往往离谱。

与欠拟合对照

	欠拟合	过拟合
表现	训练集、测试集都差	训练集好，测试集差
原因	模型太简单 / 特征不够	模型太复杂 / 数据太少
比喻	没学会	学过头、死记硬背

常见原因

模型太复杂（参数多、层数深），表达能力过强
训练数据太少，撑不起复杂模型
训练太久，在噪声上反复优化
特征过多或含噪声，学到虚假关联

常见应对

更多、更好的数据
简化模型（减参、降维、剪枝）
正则化（L1/L2、dropout 等），惩罚过于复杂的解
早停（early stopping）：验证集变差即停训
交叉验证：更可靠估计泛化能力
数据增强：扩充样本多样性

LLM 训练语境（简述）

预训练用「下一词预测」拟合海量语料分布；SFT / RLHF 在较小高质量集上继续对齐。若对齐数据极少而模型容量极大，也可能在对齐集上过拟合（话术像训练样本、泛化到新话题差）——这与日常说的「幻觉」「记错细节」是不同维度的问题，但同属「拟合与泛化」家族。训练阶段辨析见大语言模型工作原理概览、大模型「训练阶段」和日常助手、LLM Wiki 分别是什么关系。

检索场景的类比

关键词重合召回若在现有文档上手工调停用词、权重、截断行数，使下拉结果「刚好」贴合当前库，却对新文档或换一种问法漏召、乱召，可类比为过拟合：对训练语料（现有笔记）过拟合，泛化到新 query 差。缓解方向是更稳的抽词规则、FTS5 / embedding 等更强泛化层，而非继续堆特例。

另见

Query 草稿：Cursor Agent；2026-06-24。