同义词挖掘

last modify

Keywords: synonym/synonymy/synonymous/aliase extraction(抽取)/detection(检测)/discovery(发现)/identification(识别)/generation(生成)

同义词挖掘的一般流程

无监督

本文重点

  1. 生成同义词候选;

    1. 情况1) 给定了标准名与对应实体, 去挖掘其同义词合集;

    2. 情况2) 从给定语料中不定向挖掘同义词对;

    这两种情况一般都可以通过一些共现行为 (如点击) 统一到相同的形式, 即对候选 pair 的判断;

  2. 构造一个或多个相似性函数 (及其所需特征) 判断是否存在同义关系;

有监督

适用于大部分关系判断, 如上下位等;

  1. 生成同义词候选;

  2. 构造训练集, 训练模型, 预测;

    一般情况下, 如果资源充足, 都会从无监督逐渐过渡到有监督;

相似函数

ClickSim

Click Similarity

DocSim

Document

PseudoDocSim

QCSim

同义词候选挖掘

基于用户行为数据

利用用户行为数据 (user behavioral data) 从查询词 (search query) 和搜索结果页 (search result pages, SRPs) 中挖掘同义词;

Q2Q

Query to Query

  • 基于同一用户的 session 生成一些列 query pairs;

利用回译

同义词判别

判断一对同义词是否满足要求

相关论文

  • Mandal, Aritra, Ishita K. Khan, and Prathyusha Senthil Kumar. "Query Rewriting using Automatic Synonym Extraction for E-commerce Search." eCOM@ SIGIR. 2019.

  • Lu, Hanqing, et al. "Unsupervised Synonym Extraction for Document Enhancement in E-commerce Search." (2021).

参考资料

论文

博客

资源

References

Last updated