[CIKM'22] Towards Understanding the Overfitting Phenomenon of Deep Click-Through Rate Prediction Models

讨论了为什么在绝大部分的基于DNN的CTR模型训练过程中，第一个epoch之后效果最好，从第二个epoch开始反而效果开始下降。

充满了很多实验的一篇文章，直接说结论：

与该现象有关的因素
- 模型结构：DNN会有该现象，而LR就不会；
- 优化算法：收敛速度越快的算法越会出现该现象；
- 特征的稀疏性：特征越稀疏（w/ 长尾），越容易出现该现象。
与该现象无关的因素
- 模型参数量：把模型embed层减到只有一个float值，此时DNN模型的参数和LR很相似，但DNN还是会有过拟合现象；
- 激活函数；
- batch size；
- weight decay；
- dropout；

最后，作者提出了一个假设：在CTR模型训练过程中出现过拟合现象，是因为未训练的样本（包括一个epoch都没训练的样本，或者测试集的样本），分布与已训练的样本非常不一样。这里的分布指的是embedding向量与其样本标签的联合分布，随后通过实验验证了这个假设。