Transformer/BERT 常见变体
Last updated
Last updated
简介: MT-DNN (Multi-Task Deep Neural Network)
优化方向: 进一步提升 BERT 在下游任务中的表现, 使具有更强的泛化能力;
改进方法:
模型主体与 BERT 一致, 输出层为不同任务设计了各自的输出形式和目标函数;
四个子任务: 单句分类, 文本相似度, 句对分类, 相关性排序;
简介: UniLM (Unified Pre-trained Language Model, 统一预训练语言模型)
优化方向: 在 BERT 的基础上获得文本生成的能力;
改进方法:
模型结构与 BERT 基本一致, 仅通过调整 Attention Mask, 使模型具有多种语言模型的能力;
简介: 使用 Transformer-XL 作为特征提取器
优化方向:
参考资料
Byte Pair Encoding
由于不同语料的数量不一致, 因此构建 BPE 融合词表时需要
Permutation Language Model
实现方法:
将一句话中的随机打乱, 得到一个排列 (Permutation), 然后用单向编码的方式预测该排列末尾 15% 的词;
具体实现时, 不会真的打乱顺序, 而是通过调整 Mask 矩阵实现;
Span Boundary Objective
Two-Stream Self-Attention
Translated Language Model