studies
  • README
  • algorithms
    • <title - autoUpdate>
    • problems
      • 2021
        • 10
          • 两数之和
          • 两数相加
          • 最长回文子串
          • 盛最多水的容器
          • 三数之和
          • 最接近的三数之和
          • 合并两个有序链表
          • 两数相除
          • 搜索旋转排序数组
          • 接雨水
          • 分隔链表
          • 将数据流变为多个不相交区间
          • 排列硬币
          • 有效三角形的个数
        • 11
          • 下一个更大元素
          • 亲密字符串
          • 数组中重复的数字
          • 二维数组中的查找
          • 替换空格
          • 从尾到头打印链表
          • 重建二叉树
          • 用两个栈实现队列
          • 斐波那契数列
          • 跳台阶
          • 旋转数组的最小数字
          • 矩阵中的路径
          • 机器人的运动范围
          • 剪绳子(整数拆分)
          • 剪绳子
          • 二进制中1的个数
          • 数值的整数次方(快速幂)
          • 打印从1到最大的n位数(N叉树的遍历)
          • 删除链表的节点
          • 正则表达式匹配
          • 表示数值的字符串
          • 调整数组顺序使奇数位于偶数前面
          • 链表中倒数第k个节点
          • 反转链表
          • 合并两个排序的链表
          • 树的子结构
          • 二叉树的镜像
          • 对称的二叉树
          • 顺时针打印矩阵(3种思路4个写法)
          • 包含min函数的栈
          • 栈的压入、弹出序列
          • 层序遍历二叉树
          • 层序遍历二叉树
          • 层序遍历二叉树(之字形遍历)
        • 12
          • 整数拆分
          • 二叉搜索树的后序遍历序列
          • 二叉树中和为某一值的路径
          • 复杂链表的复制(深拷贝)
          • 二叉搜索树与双向链表
          • 序列化二叉树
          • 字符串的排列(全排列)
          • 数组中出现次数超过一半的数字(摩尔投票)
          • 最小的k个数(partition操作)
          • 数据流中的中位数
          • 连续子数组的最大和
          • 1~n整数中1出现的次数
          • 数字序列中某一位的数字
          • 把数组排成最小的数
          • 斐波那契数列-3(把数字翻译成字符串)
          • 礼物的最大价值
          • 最长不含重复字符的子字符串
          • 丑数
          • 第一个只出现一次的字符
      • 2022
        • 01
          • 划分2N个点
          • 正则表达式匹配
          • 删除链表的倒数第N个结点
          • 最大子数组和
          • 最小路径和
          • 爬楼梯
          • 数组中的逆序对
          • 两个链表的第一个公共节点
          • 求0~n-1中缺失的数字
          • 在排序数组中查找数字
          • 二叉搜索树的第k大节点
          • 求二叉树的深度
          • 判断是否为平衡二叉树
          • 数组中数字出现的次数
          • 数组中数字出现的次数
          • 和为s的两个数字
          • 和为s的连续正数序列
          • 翻转单词顺序
          • 左旋转字符串
          • 滑动窗口的最大值
          • 队列的最大值
          • n个骰子的点数
          • 扑克牌中的顺子
          • 圆圈中最后剩下的数字(约瑟夫环问题)
          • 买卖股票的最佳时机
          • 求1~n的和
          • 不用加减乘除做加法
          • 构建乘积数组
          • 把字符串转换成整数
          • 二叉搜索树的最近公共祖先
          • 二叉树的最近公共祖先
          • 大数加法
          • 重排链表
          • 链表中环的入口结点
          • 判断链表中是否有环
          • 二叉树根节点到叶子节点的所有路径和
          • 二叉树中的最大路径和
          • 买卖股票的最好时机(一)
          • 二叉树中和为某一值的路径(二)
          • 二叉树中和为某一值的路径(一)
          • 大数乘法
          • 将升序数组转化为平衡二叉搜索树
          • 重建二叉树
          • 二叉树的最大深度
          • 按之字形顺序打印二叉树
          • 求二叉树的层序遍历
          • 对称的二叉树
          • 最长回文子串
          • 顺时针旋转矩阵
          • 连续子数组的最大和
          • 数字字符串转化成IP地址
          • 链表内指定区间反转
          • 合并两个有序的数组
          • 划分链表
          • 删除有序链表中重复的元素-II
          • 删除有序链表中重复的元素-I
        • 02
          • 无重复字符的最长子串
          • 寻找两个正序数组的中位数
          • K个一组翻转链表
          • 解码方法
          • 二叉树中的最大路径和
          • 完全平方数
          • 括号生成
          • 集合的所有子集(一)
          • 最小覆盖子串
          • 二维数组中的查找
          • 缺失的第一个正整数
          • 第一个只出现一次的字符
          • 求平方根
          • 合并两个排序的链表
          • 求路径
          • 编辑距离(二)
          • 在两个长度相等的排序数组中找到上中位数
          • 合并区间
        • 03
          • 有效的括号
          • 不同的二叉搜索树
          • 验证二叉搜索树
          • 二叉树的完全性检验
          • 螺旋矩阵
          • N皇后问题
          • 链表相加(二)
          • 最长无重复子数组
          • 有重复项数字的全排列
          • 没有重复项数字的全排列
          • 通配符匹配
          • 实现二叉树先序、中序、后序遍历
          • 加起来和为目标值的组合(二)
          • 数独
          • 在旋转过的有序数组中寻找目标值
          • 最长的括号子串
          • 链表中的节点每k个一组翻转
          • 合并k个已排序的链表
          • 有效括号序列
          • 删除链表的倒数第n个节点
          • 三数之和
          • 最长公共前缀
          • 回文数字
          • 反转数字
          • 找到搜索二叉树中两个错误的节点
          • 矩阵的最小路径和
          • 判断一棵二叉树是否为搜索二叉树和完全二叉树
          • 两数之和
          • 判断是不是平衡二叉树
          • 扑克牌顺子
          • 二叉搜索树与双向链表
          • 斐波那契数列
          • 两个链表的第一个公共结点
          • 汉诺塔问题
          • 跳台阶
          • 链表中倒数最后k个结点
          • 单链表的排序
          • 旋转数组的最小数字
          • 二叉树的镜像
          • 数组中出现次数超过一半的数字
          • 数字在升序数组中出现的次数
          • 数组中只出现一次的两个数字
          • 用两个栈实现队列
          • 调整数组顺序使奇数位于偶数前面(一)
          • 反转链表
          • 丑数
          • 把二叉树打印成多行
          • 二叉搜索树的第k个节点
          • 滑动窗口的最大值
        • 04
          • 连续子数组的最大乘积
          • 完全二叉树结点数
          • 拼接所有的字符串产生字典序最小的字符串
          • 矩阵元素查找
          • 丢棋子问题(鹰蛋问题)
          • 寻找第K大
          • 字符串变形
          • 包含min函数的栈
          • 最长上升子序列(三)
          • 最长公共子序列(二)
          • 设计LRU缓存结构
          • 设计LFU缓存结构
          • 数组中的最长连续子序列
          • 判断一个链表是否为回文结构
          • 字符串出现次数的TopK问题
          • 判断t1树中是否有与t2树完全相同的子树
          • 多叉树的直径
          • 把字符串转换成整数(atoi)
          • 压缩字符串(一)
          • 在二叉树中找到两个节点的最近公共祖先
          • 反转字符串
          • 比较版本号
          • 二分查找-II
          • 三个数的最大乘积
          • 寻找峰值
          • 最大正方形
          • 岛屿数量
          • 旋转数组
          • 最大数
          • 进制转换
        • 05
          • 放苹果
          • 验证IP地址
          • 旋转字符串
          • 栈和排序
          • 把数字翻译成字符串
          • 合并二叉树
          • 数组中的逆序对
          • 最小的K个数
          • 二进制中1的个数
          • 字符串的排列
          • 正则表达式匹配
          • 序列化二叉树
          • 字典树的实现
          • 和为K的连续子数组
          • 兑换零钱(一)
          • 最长公共子串
          • 接雨水问题
          • 阶乘末尾0的数量
          • 分糖果问题
          • 01背包
        • 06
          • 编辑距离
          • 路径总和
          • 路径总和II
          • 三角形最小路径和
          • 买卖股票的最佳时机
          • 买卖股票的最佳时机II
          • 买卖股票的最佳时机III
          • 重排链表
          • 乘积最大子数组
          • 打家劫舍
          • 打家劫舍II
          • 最长递增子序列
          • 零钱兑换
          • 打家劫舍III
          • 路径总和III
          • 一和零
          • 零钱兑换II
          • 链表的中间结点
          • 分割数组
        • 07
          • 二叉树的最大深度
          • 二叉树的最小深度
          • 求根节点到叶节点数字之和
          • 两数之和II-输入有序数组
          • 重复的DNA序列
          • 搜索二维矩阵 II
          • 二叉树的所有路径
          • 字符串中的单词数
          • 从叶结点开始的最小字符串
        • 09
          • 平衡二叉树
          • 整数除法
          • 山峰数组的顶部
          • 数组中的第K大的数字
          • 判定字符是否唯一
          • 判定是否互为字符重排
        • 10
          • 电话号码的字母组合
          • 括号生成
          • 合并K个升序链表
          • 下一个排列
          • 最长有效括号
          • 在排序数组中查找元素的第一个和最后一个位置
          • 组合总和
          • 组合总和II
          • 全排列
          • 全排列II
          • 字母异位词分组
          • x 的平方根
          • 反转链表
          • 数组中的第K个最大元素
          • 滑动窗口最大值
  • Notes
    • 数据结构与算法
    • 深度学习
    • 机器学习
    • 自然语言处理
    • 计算机视觉
    • Python
    • Cpp
    • Linux
    • 大数据
    • Wiki
    • Notes
    • Todo
    • note_template
    • _archives
      • 2022
        • 04
          • GitBook 使用指南
          • Hive SQL 常用操作
          • 常用 LaTeX 公式
          • Markdown 语法备忘
          • BERT+CRF 等备忘
        • 05
          • Attention
          • BERT 常见面试问题
          • CNN
          • BERT + CRF
          • Obsidian
          • RNN
          • Sentence-BERT
          • Transformer Wiki
          • Transformer 常见问题
          • XGBoost 学习笔记
          • 装饰器的本质
          • 不平衡学习专题
          • 使用爱因斯坦标记法操作张量
          • 向后兼容(Backward-Compatible)的表示学习
          • 基于互信息的表示学习
          • 对比学习
          • 损失函数
          • 激活函数
          • 数据不平衡专题
          • Do We Really Need a Learnable Classifier at the End of Deep Neural Network?
          • 过拟合与正则化
          • 预训练模型的轻量化微调
        • 06
          • HuggingFace 套件离线使用方法
          • KDD 2022
          • Linux 后台执行
          • awk常用示例
          • Linux 解压缩
          • Markdown 简历工具
          • NLP 任务与应用
          • git-subtree 的基本用法
          • git 的基本使用
          • python 国内镜像源
          • class method 中 self 的含义
          • 常见面试问题
          • SMART Loss
          • 需求评估模型
        • 07
          • Mac 环境配置
          • PET 模型实践
          • PyCharm 常用配置
          • Shell 脚本备忘
          • PySpark SQL 使用指南
          • Python 函数声明中单独的正斜杠(/)和星号(*)是什么意思
          • 类变量、成员变量,与注解
          • 印尼语 NLP
          • 快捷键记录
          • 深度学习环境配置
          • 深度学习编程
          • 知识图谱概述
        • 08
          • Docker 学习笔记
          • Github Action 备忘
          • Python 容器基类的使用
          • SQL 字符串处理
          • glob 语法备忘
          • 标签体系构建
        • 09
          • WSL2 使用记录
          • dataclass 使用记录
          • requirements.txt 语法备忘
          • Python 标准项目实践
          • 设计模式 - 工厂模式
          • 设计模式 - 建造者模式
          • 设计模式
        • 10
          • Transformer/BERT 常见变体
          • GBDT/XGBoost 备忘
          • 从暴力递归到动态规划
          • 关系抽取
          • 树形递归技巧
          • 滑动窗口模板
          • 简历书写技巧 (算法)
          • 算法面试笔记
          • 语言模型
          • 链表常用操作备忘
        • 12
          • NER
          • NLP 标注工具
          • Jupyter & IPython 使用备忘
          • Label Studio 使用记录
          • NLP 领域术语 Wiki
          • Node.js 环境搭建
          • 基于 BERT/MLM 的查询扩展方法
          • Query 分析指南
          • Query 扩展 (电商领域)
          • query 理解参考资料
          • Query 纠错
          • 低资源训练
          • 同义与上下位关系挖掘
          • 同义词挖掘
          • 基于用户行为数据的同义词挖掘方法 (英文)
          • 实验报告模板
          • 搜索与 NLP
          • 搜索指标
          • 搜索相关阅读
          • 常见的文本相似度计算
          • 电商领域的 NER
          • 电商 NER 标签体系
          • 电商搜索
      • 2023
        • 01
          • PySpark 笔记
          • Windows 使用备忘
          • Hive/Spark SQL 常用查询记录
          • 基于 SQL 计算信息熵与信息增益
          • Hive/Spark/Presto SQL 备忘
          • 数仓基础概念
        • 02
          • SQL优化之暴力扫描
          • Transformer与长度外推性
          • Transformer 的优势与劣势
        • 03
          • Hive 常用 SQL 备忘
        • 05
          • 转正申请
        • 06
          • huggingface 套件使用备忘
          • LLM 应用收集
          • LLM 训练方案整理
Powered by GitBook
On this page
  • 过拟合与欠拟合
  • 过拟合
  • 欠拟合
  • 参考
  • 常见正则化方法
  • 数据增强
  • 为损失函数添加正则化项
  • 提前结束训练(Early Stopping)
  • Dropout
  • R-Drop
  • 各种 Normalization
  • 对抗训练
  1. Notes
  2. _archives
  3. 2022
  4. 05

过拟合与正则化

PreviousDo We Really Need a Learnable Classifier at the End of Deep Neural Network?Next预训练模型的轻量化微调

Last updated 2 years ago

last modify

过拟合与欠拟合

过拟合

现象

  • 训练集效果很好,但是验证集很差,这种现象称为过拟合,表现为高方差。

常见解决方法

  • 训练数据不足

    • 数据增强

      • NLP-EDA

      • CV-切割、裁剪、旋转

      • Mixup

    • 对抗训练

  • 训练数据中存在噪声:

    • 交叉验证

    • 集成学习(Bagging)

  • 模型复杂度较高:

    • 正则化项

    • Dropout

    • Early Stoping

    • 降低模型复杂度

      • 减少模型参数

      • 使用简单模型

欠拟合

现象

  • 训练集和验证集的效果都很差,这种现象称为欠拟合,表现为高偏差;

常见解决方法

  • 特征工程

    • FM、FFM

  • 集成学习(Boosting)

  • 提高模型复杂度

    • 增加模型参数

    • 使用复杂模型

参考

常见正则化方法

数据增强

  • 简单数据增强

    • NLP(EDA:增删改、替换)

    • 图像(切割、裁剪、旋转等)

  • 数据融合

    • Mixup

为损失函数添加正则化项

  • 常见的正则化项有 L1、L2 正则项;

参考

L1 正则化

L2 正则化

提前结束训练(Early Stopping)

  • 当模型在验证集上的性能开始下降时,提前结束训练;

  • 一般会配合交叉验证来使用;

参考

Dropout

作用

  • 提升泛化能力,减少过拟合;

原理

  • Dropout 提供了一种廉价的 Bagging 集成近似(模型平均);

思想

  • 遗传算法,通过随机变异(随机删除神经元),来促使整个种群的进化;

常见问题

Dropout 在训练和测试时有什么区别?为什么?

  • 训练时,经过 Dropout 的输出值会乘以 $\frac{1}{1-p}$;测试时不会。

  • 经过 Dropout 后,输入 x 的期望输出将变为 p*0 + (1-p)*x = (1-p)x(p 的可能变为 0,1-p 的可能保持不变);

  • 为了还原未经过 Dropout 的期望值,故需要乘以 $\frac{1}{1-p}$

为什么 Dropout 能防止过拟合?

  • 直观上,Dropout 会使部分神经元失活,减小了模型容量,从而降低了模型的拟合能力;

  • 宏观上,Dropout 提供了一种廉价的 Bagging 集成方法(共享权重);

  • 隐藏单元经过 Dropout 后,必须学习与不同采样的神经元合作,使得神经元具有更强的健壮性(减少神经元之间复杂的共适应关系);

PyTorch 实现

  • 【训练阶段】前向传播时,对每个神经元以概率 p 失活(即乘以 0.),而其他未失活的单元则乘以 1/(1-p)(放大)

  • 【测试阶段】使 dropout 失效,即正常使用所有神经元;

class Dropout(nn.Module):

    def __init__(self, p):
        super().__init__()
        self.p = p  # 以 p 的概率丢弃

    def forward(self, x):
        if not self.training:
            return x
        
        mask = (torch.rand(x.shape) > self.p).float()
        return x * mask / (1.0 - self.p)

R-Drop

动机 & 作法

  • 尝试解决 Dropout 在训练与预测时使用不一致的问题;

  • Dropout 本身不是已经尝试解决了这个不一致问题吗?它的解决方案有什么问题?

    • Dropout 通过缩放神经元的输出值来缓解训练与预测时不一致的影响。Dropout 的本意是为了得到一个“模型平均”的结果,而这种通过缩放来还原实际上是一种“权重平均”(见 Dropout 的推导),这两者未必等价;

    • 具体来说,Dropout 的正确使用方式应该是预测时打开 Dropout,然后计算多次预测的平均值作为结果;但实际并不是这样使用的。

  • R-Drop 是怎么解决这个问题的?

    • 通过对同一样本 Dropout 两次,然后加入 KL 散度来保持不同 Dropout 下预测结果的一致性;

  • KL 散度损失是怎么保证预测一致性的?

    • 交叉熵损失只关注目标类的得分,非目标类的得分不影响最终 loss;相当于训练目标是 “不同 Dropout 下目标类的得分都大于非目标类的得分”。

    • 举例来说 [0.5, 0.2, 0.3]、[0.5, 0.3, 0.2] 与 [1, 0, 0] 的交叉熵损失是一样的,都是 -log(0.5),非目标类的 0.2 和 0.3 都没有起作用;

    • KL 散度则会关注每一个类别的得分,相当于训练目标是“不同 Dropout 下每个类别的得分一致”

    • 就上例来说,计算 [0.5, 0.2, 0.3]、[0.5, 0.3, 0.2] 与 [1, 0, 0] 的 KL 散度都会产生非零损失;

PyTorch 实现

class RDrop(nn.Module):

    def __init__(self, encoder, kl_alpha=1.0):
        super().__init__()

        self.encoder = encoder
        self.kl_alpha = kl_alpha
        self.ce = nn.CrossEntropyLoss()
        self.kl = nn.KLDivLoss()

    def forward(self, x, labels):
        logits1 = self.encoder(x)
        logits2 = self.encoder(x)
        ce_loss = (self.ce(logits1, labels) + self.ce(logits2, labels)) / 2
        kl_loss1 = self.kl(F.log_softmax(logits1, dim=-1), F.softmax(logits2, dim=-1))
        kl_loss2 = self.kl(F.log_softmax(logits2, dim=-1), F.softmax(logits1, dim=-1))
        return ce_loss + self.kl_alpha * (kl_loss1 + kl_loss2) / 2

参考

各种 Normalization

参考

Batch Normalization

per channel per batch

使用场景:CV

前向过程

μ=1m∑i=1mxi//batch meanσ2=1m∑i=1m(xi−μ)2//batch variancex^i=xi−μσ2+ϵ//normalizationyi=γx^i+β//scale and shift\begin{aligned} \mu &= \frac{1}{m} \sum_{i=1}^m x_i &//&\text{batch mean} \\ \sigma^2 &= \frac{1}{m} \sum_{i=1}^m (x_i-\mu)^2 &//&\text{batch variance} \\ \hat{x}_i &= \frac{x_i - \mu}{\sqrt{\sigma^2 + \epsilon}} &//&\text{normalization} \\ y_i &= \gamma \hat{x}_i + \beta &//&\text{scale and shift} \end{aligned}μσ2x^i​yi​​=m1​i=1∑m​xi​=m1​i=1∑m​(xi​−μ)2=σ2+ϵ​xi​−μ​=γx^i​+β​////////​batch meanbatch variancenormalizationscale and shift​

PyTorch实现

def batch_norm(x, eps=1e-5):
    """x: [batch_size, time_step, channel]"""
    C = x.shape[-1]
    mean = torch.mean(x, dim=(0, 1), keepdim=True)  # [1, 1, C]
    std = torch.std(x, dim=(0, 1), unbiased=False, keepdim=True)  # [1, 1, C]
    gamma = torch.nn.Parameter(torch.empty(C))
    beta = torch.nn.Parameter(torch.empty(C))
    output = gamma * (x - mean) / (std + eps) + beta
    return output

参考

Layer Normalization

per sample per layer

使用场景:NLP

前向过程

Instance Normalization

per sample per channel

作用

使用场景:CV 风格迁移

Group Normalization

per sample per group

Weight Normalization

常见问题

BN 与 LN 的区别

  • BN 在 batch 维度为归一;

  • LN 在 feature 维度做归一;

为什么 BN 一般不用于 NLP ?

对抗训练

L1、L2 正则化的特点与区别:

Bagging和Boosting的区别(面试准备) - Earendil - 博客园
NLP-Interview-Notes/过拟合和欠拟合.md at main · km1994/NLP-Interview-Notes
NLP-Interview-Notes/正则化.md at main · km1994/NLP-Interview-Notes
机器学习中正则化项L1和L2的直观理解_阿拉丁吃米粉的博客-CSDN博客
【关于 早停法 EarlyStopping 】那些你不知道的事
[2106.14448] R-Drop: Regularized Dropout for Neural Networks
又是Dropout两次!这次它做到了有监督任务的SOTA - 苏剑林
详解深度学习中的 Normalization,BN/LN/WN - 知乎
【深度学习】深入理解Batch Normalization批标准化 - 郭耀华 - 博客园
Batch Normalization的通俗解释 - 知乎