Transformer/BERT 常见变体

last modify

概览

Name
Features

ALBERT

  • 简介:

  • 优化方向:

  • 改进方法:

BART

  • 简介:

  • 优化方向:

  • 改进方法:

ERNIE (Baidu)

  • 简介:

  • 优化方向:

  • 改进方法:

ERNIE (THU)

  • 简介:

  • 优化方向:

  • 改进方法:

MT-DNN

  • 简介: MT-DNN (Multi-Task Deep Neural Network)

  • 优化方向: 进一步提升 BERT 在下游任务中的表现, 使具有更强的泛化能力;

  • 改进方法:

    • 模型主体与 BERT 一致, 输出层为不同任务设计了各自的输出形式和目标函数;

    • 四个子任务: 单句分类, 文本相似度, 句对分类, 相关性排序;

RoBERTa

  • 简介:

  • 优化方向:

  • 改进方法:

SpanBERT

  • 优化方向: 通过扩大掩码范围提升模型性能; 服务于抽取式问答任务;

  • 改进方法:

    • 模型结构与 BERT 一致;

    • 使用 Span mask 方案, 对局部连续的 token 做 mask 来扩大掩码的粒度;

    • 使用 SBO (Span Boundary Objective) 作为训练方法;

T5

  • 简介:

  • 优化方向:

  • 改进方法:

UniLM*

  • 简介: UniLM (Unified Pre-trained Language Model, 统一预训练语言模型)

  • 优化方向: 在 BERT 的基础上获得文本生成的能力;

  • 改进方法:

    • 模型结构与 BERT 基本一致, 仅通过调整 Attention Mask, 使模型具有多种语言模型的能力;

      Masking 技巧;

XLM

  • 简介: XLM (Cross-lingual Language Model, 跨语言的语言模型);

  • 优化方向: 使 BERT 具有跨语言表征的能力;

  • 改进方法:

    • 模型结构与 BERT 一致;

    • 使用 BPE 分词, 缓解未登录词过多的问题;

    • 使用 TLM 和双语语料训练;

      实际为 MLM 和 TML 交叉训练;

XLNet*

WIKI

BPE

Byte Pair Encoding

  • 由于不同语料的数量不一致, 因此构建 BPE 融合词表时需要

抽取式问答

Masking Trick

从语言模型到Seq2Seq:Transformer如戏,全靠Mask - 苏剑林

PLM

Permutation Language Model

  • 实现方法:

    • 将一句话中的随机打乱, 得到一个排列 (Permutation), 然后用单向编码的方式预测该排列末尾 15% 的词;

    • 具体实现时, 不会真的打乱顺序, 而是通过调整 Mask 矩阵实现;

SBO

Span Boundary Objective

Span mask

双流注意力机制

Two-Stream Self-Attention

TLM

Translated Language Model

Transformer-XL

Last updated