回答思路
1.获取和使用更多的数据(数据集增强)——解决过拟合的根本性方法 让机器学习或深度学习模型泛化能力更好的办法就是使用更多的数据进行训练。但是,在实践中,我们拥有的数据量是有限的。解决这个问题的一种方法就是创建“假数据”并添加到训练集中——数据集增强。通过增加训练集的额外副本来增加训练集的大小,进而改进模型的泛化能力。 2. 采用合适的模型(控制模型的复杂度) 过拟合主要是有两个原因造成的:数据太少+模型太复杂。所以,我们可以通过使用合适复杂度的模型来防止过拟合问题。 3.降低特征的数量 对于一些特征工程而言,可以降低特征的数量——删除冗余特征,人工选择保留哪些特征。这种方法也可以解决过拟合问题 4.结合多种模型 简而言之,训练多个模型,以每个模型的平均输出作为结果。比如bagging和boosting,都能很好的解决过拟合。 答案解析 这道题主要考验过拟合的概念及如何防止过拟合,过拟合是指训练误差和测试误差之间的差距太大。就是说模型复杂度高于实际问题,模型在训练集上表现很好,但在测试集上却表现很差。