Last updated 1 year ago
Keywords: transformer
背景
常见 Transformer 变体
长度外推性
常见面试问题
原始 Transformer 指的是一个基于 Encoder-Decoder 框架的 Seq2Seq 模型,用于解决机器翻译任务;
后其 Encoder 部分被用于 BERT 而广为人知,因此有时 Transformer 也特指其 Encoder 部分;
相关论文:
[1706.03762] Attention Is All You Need
[1810.04805] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
Transformers系列模型
Transformer与长度外推性
Transformer 常见面试问题