NLP 领域术语 Wiki

last modify

子词切分

Subword Tokenization, 即将一个单词进一步切分为若干连续片段;

  • NLP 领域中使用无监督的子词切分算法取代词形还原和词干提取来对词表进行压缩, 以缓解数据稀疏问题;

  • 一个好的子词切分算法应该尽量将原词拆分成有意义或频繁使用的片段, 如 "annoyingly" -> "annoy" "ing" "ly";

  • 在基于预训练的现代 NLP 任务中已经成为行业共识的基础步骤;

  • 常见的子词切分算法: Byte-Pair Encoding (BPE), Byte-level BPE, WordPiece, Unigram

    Subword tokenization - huggingface

相关工具库

BPE

字节对编码 (Byte Pair Encoding, BPE)是一种基于统计的数据压缩算法;

Last updated