概览
ALBERT
BART
ERNIE (Baidu)
ERNIE (THU)
MT-DNN
RoBERTa
SpanBERT
T5
UniLM*
XLM
XLNet*
WIKI
BPE
抽取式问答
Masking Trick
PLM
SBO
Span mask
双流注意力机制
TLM
Transformer-XL
简介:
优化方向:
改进方法:
简介: MT-DNN (Multi-Task Deep Neural Network)
优化方向: 进一步提升 BERT 在下游任务中的表现, 使具有更强的泛化能力;
模型主体与 BERT 一致, 输出层为不同任务设计了各自的输出形式和目标函数;
四个子任务: 单句分类, 文本相似度, 句对分类, 相关性排序;
优化方向: 通过扩大掩码范围提升模型性能; 服务于抽取式问答任务;
模型结构与 BERT 一致;
使用 Span mask 方案, 对局部连续的 token 做 mask 来扩大掩码的粒度;
使用 SBO (Span Boundary Objective) 作为训练方法;
简介: UniLM (Unified Pre-trained Language Model, 统一预训练语言模型)
优化方向: 在 BERT 的基础上获得文本生成的能力;
模型结构与 BERT 基本一致, 仅通过调整 Attention Mask, 使模型具有多种语言模型的能力;
Masking 技巧;
简介: XLM (Cross-lingual Language Model, 跨语言的语言模型);
优化方向: 使 BERT 具有跨语言表征的能力;
使用 BPE 分词, 缓解未登录词过多的问题;
使用 TLM 和双语语料训练;
实际为 MLM 和 TML 交叉训练;
简介: 使用 Transformer-XL 作为特征提取器
提出 PLM 训练方法, 解决 MLM 中 [MASK] 的问题;
[MASK]
提出双流注意力机制配合 PLM 训练;
使用 Transformer-XL 作为特征提取器, 加强长文本理解能力;
参考资料
乱序语言模型 - 科学空间arrow-up-right
Byte Pair Encoding
由于不同语料的数量不一致, 因此构建 BPE 融合词表时需要
从语言模型到Seq2Seq:Transformer如戏,全靠Mask - 苏剑林arrow-up-right
Permutation Language Model
实现方法:
将一句话中的随机打乱, 得到一个排列 (Permutation), 然后用单向编码的方式预测该排列末尾 15% 的词;
具体实现时, 不会真的打乱顺序, 而是通过调整 Mask 矩阵实现;
Span Boundary Objective
Two-Stream Self-Attention
Translated Language Model
Last updated 3 years ago