语言模型
keywords: 语言模型 (Language Model)
概述
语言模型通常指用来计算一个句子 (序列) 出现概率的模型;
记一个长度为 $n$ 的序列 $x=\left[x_0, x_1, .., x_{n-1}\right]$, 则语言模型的任务是建模联合概率 $P(x)=P(x_0, x_1, .., x_{n-1})$; 根据条件概率公式与链式法则, 该概率可以被分解为
因为可以从 $P(x_t|x_1, x_2, .., x_{t-1})$ 反向计算出 $P(x)$, 所有有时也将语言模型直接定义为前者;
一些文章将这种从左向右(根据前文预测下一个词)的语言模型称为 自回归 (Auto-Regressive, AR) 语言模型, 用来与 BERT 使用的 自编码 (Auto-Encoder, AE) 语言模型 区分;
AR 与 AE 优缺点
AR
优点
缺点
AE
优点
缺点
参考资料
Last updated