SMART Loss
Last updated
Last updated
迁移学习从根本上改变了自然语言处理(NLP)的格局。许多最先进的模型会先在大规模语料库上进行预训练,然后在下游任务上进行微调。
然而,由于下游任务的数据资源有限,且预训练模型的复杂度极高,主动微调往往会导致模型过拟合,无法推广到看不见的数据。
本文提出了一种微调方案,能够使模型具有更好的泛化能力;其主要包含两个部分
Smoothness-inducing regularization:限制模型的复杂度;
Bregman proximal point optimization:防止过度优化;
一些常见的防止过度学习的方法:
启发式学习率
逐步解冻(gradually unfreeze)
只微调部分层
在模型中添加额外的参数或层,只训练这部分
缺点:需要进行大量的调优工作