\(F-Principle\)定理:
DNN倾向于按从低频到高频的顺序来拟合训练数据。
实验
Spatial Domain
Red: the target function;
Blue: DNN output.
Abscissa: input;
Ordinate: output.
Fourier Domain
Red: FFT of the target function;
Blue: FFT of DNN output.
Abscissa: frequency;
Ordinate: amplitude.
从上述实验(图源)可以看出,模型的拟合是有顺序的,首先从低频开始,逐渐转移至更高频率的拟合。
启发
从\(F-principle\)角度来理解过拟合现象:神经网络的泛化性能来源于它在训练过程,会更多关注低频分量。随着训练的进行,模型对训练集的拟合逐渐转化至高频成分,即对高频成分的拟合越来越好。但高频成分往往是噪声信号,因此导致了模型的泛化能力减弱。因此,提前停止训练(early-stopping)就能在实践中提高 DNN 的泛化能力。