同义词挖掘

Keywords: synonym/synonymy/synonymous/aliase extraction(抽取)/detection(检测)/discovery(发现)/identification(识别)/generation(生成)

同义词挖掘的一般流程

无监督

本文重点

生成同义词候选;
1. 情况1) 给定了标准名与对应实体, 去挖掘其同义词合集;
2. 情况2) 从给定语料中不定向挖掘同义词对;
这两种情况一般都可以通过一些共现行为 (如点击) 统一到相同的形式, 即对候选 pair 的判断;
构造一个或多个相似性函数 (及其所需特征) 判断是否存在同义关系;

有监督

适用于大部分关系判断, 如上下位等;

生成同义词候选;
构造训练集, 训练模型, 预测;
一般情况下, 如果资源充足, 都会从无监督逐渐过渡到有监督;

相似函数

ClickSim

Click Similarity

DocSim

Document Similarity

PseudoDocSim

QCSim

同义词候选挖掘

基于用户行为数据

利用用户行为数据 (user behavioral data) 从查询词 (search query) 和搜索结果页 (search result pages, SRPs) 中挖掘同义词;

Q2Q

Query to Query

基于同一用户的 session 生成一些列 query pairs;

利用回译

同义词判别

判断一对同义词是否满足要求

参考资料

论文

(2012,Chakrabarti) A Framework for Robust Discovery of Entity Synonyms
微软; 实体同义词 (entity synonyms); 基于点击数据; 垂类搜索领域 (电商/视频); 如何在垂搜中使用同义词; 提出 Pseudo Document Similarity (PseudoDocSim, 改进 ClickSim 和 DocSim) 和 Query Context Similarit (QCSim, 弥补 ClickSim 和 DocSim 的缺陷) 两种相似度计算方法;
(2011,Cheng) Entity Synonyms for Structured Web Search
微软; Click Similarity (ClickSim)
- Cheng T, Lauw H W, Paparizos S. Fuzzy matching of web queries to structured data[C]//2010 IEEE 26th International Conference on Data Engineering (ICDE 2010). IEEE, 2010: 713-716.
  最早提出 ClickSim 的论文;
(2001,Turney) Mining the Web for Synonyms: PMI-IR versus LSA on TOEFL
Document Similarity (DocSim)

博客

How to Build a Smart Synonyms Model | by Patrick O'Neill | Kensho Blog
基于 Wikipedia 重定向挖掘同义词; 有 Kaggle 代码;
- kdwd_aliases_and_disambiguation | Kaggle
  关联的 Kaggle 代码;
  - Kensho Derived Wikimedia Dataset | Kaggle
    关联的 Wikipedia 数据
- Introducing the Kensho Derived Wikimedia Dataset | by Gabriel Altay | Kensho Blog
  Wikipedia 数据解析方法; 介绍如何将原始 Wikipedia 数据解析成 Kensho 版本的数据; 有 Kaggle 代码;

资源

smallwat3r/synonym: CLI tool to find synonyms in 15 different languages.
一个 Linux 命令行工具, 通过调用 Thesaurus 提供的 API 返回同义词;

References

Previous同义与上下位关系挖掘 Next基于用户行为数据的同义词挖掘方法 (英文)

Last updated 3 years ago

hashtag同义词挖掘的一般流程

hashtag无监督

hashtag有监督

hashtag相似函数

hashtagClickSim

hashtagDocSim

hashtagPseudoDocSim

hashtagQCSim

hashtag同义词候选挖掘

hashtag基于用户行为数据

hashtagQ2Q

hashtag利用回译

hashtag同义词判别

hashtag相关论文

hashtag参考资料

hashtag论文

hashtag博客

hashtag资源

hashtagReferences

同义词挖掘的一般流程

无监督

有监督

相似函数

ClickSim

DocSim

PseudoDocSim

QCSim

同义词候选挖掘

基于用户行为数据

Q2Q

利用回译

同义词判别

相关论文

参考资料

论文

博客

资源

References