语言模型

keywords: 语言模型 (Language Model)

概述

语言模型通常指用来计算一个句子 (序列) 出现概率的模型;
- 记一个长度为 $n$ 的序列 $x=\left[x_0, x_1, .., x_{n-1}\right]$, 则语言模型的任务是建模联合概率 $P(x)=P(x_0, x_1, .., x_{n-1})$; 根据条件概率公式与链式法则, 该概率可以被分解为
$P(x)=P(x_0)\prod \limits_{t=1}^{n-1} P(x_t|x_1, x_2, .., x_{t-1})=P(x_0)\prod \limits_{t=1}^{n-1} P(x_t|x_{<t})$
- 因为可以从 $P(x_t|x_1, x_2, .., x_{t-1})$ 反向计算出 $P(x)$, 所有有时也将语言模型直接定义为前者;
一些文章将这种从左向右(根据前文预测下一个词)的语言模型称为 自回归 (Auto-Regressive, AR) 语言模型, 用来与 BERT 使用的 自编码 (Auto-Encoder, AE) 语言模型 区分;

XLNet:运行机制及和Bert的异同比较 - 知乎

Last updated 2 years ago