基于PMI-IR的联想词表构造方法研究

被引：1

作者：

张泽伟

矫健

张仰森

机构：

[1] 北京信息科技大学计算机学院智能信息处理研究所

来源：

计算机技术与发展 | 2014年 / 24卷 / 06期

关键词：

逐点互信息方法; 联想词表; 查询日志;

D O I：

暂无

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

081203 ; 0835 ;

摘要：

通过对大规模查询日志进行挖掘分析进而提高检索的准确率一直是信息检索领域的热点问题。文章提出一种基于PMI-IR(逐点互信息方法)的联想词表构造方法。该方法利用序列模式挖掘算法扫描大规模用户查询日志,获取共现频次超过某一阈值的词组合,进行聚类获取候选同义词集,然后依次计算词wordA与每个候选词的相似度,选择相似度高于某一阈值的词作为词wordA的联想词集,最后形成联想词表。实验表明,借助该方法得到的联想词表进行扩展查询提高了检索的准确率。

引用

页码：140 / 144

页数：5

共 9 条

[1] 基于半监督话题模型的用户查询日志命名实体挖掘 [J].