基于PMI-IR的联想词表构造方法研究

被引:1
作者
张泽伟
矫健
张仰森
机构
[1] 北京信息科技大学计算机学院智能信息处理研究所
关键词
逐点互信息方法; 联想词表; 查询日志;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
通过对大规模查询日志进行挖掘分析进而提高检索的准确率一直是信息检索领域的热点问题。文章提出一种基于PMI-IR(逐点互信息方法)的联想词表构造方法。该方法利用序列模式挖掘算法扫描大规模用户查询日志,获取共现频次超过某一阈值的词组合,进行聚类获取候选同义词集,然后依次计算词wordA与每个候选词的相似度,选择相似度高于某一阈值的词作为词wordA的联想词集,最后形成联想词表。实验表明,借助该方法得到的联想词表进行扩展查询提高了检索的准确率。
引用
收藏
页码:140 / 144
页数:5
相关论文
共 9 条
[1]   基于半监督话题模型的用户查询日志命名实体挖掘 [J].
曹雷 ;
郭嘉丰 ;
白露 ;
程学旗 .
中文信息学报, 2012, 26 (05) :26-32
[2]   基于图的同义词集自动获取方法 [J].
吴云芳 ;
石静 ;
金澎 .
计算机研究与发展, 2011, 48 (04) :610-616
[3]   基于日志挖掘的搜索引擎用户行为分析 [J].
岑荣伟 ;
刘奕群 ;
张敏 ;
茹立云 ;
马少平 .
中文信息学报, 2010, (03) :49-54
[4]   基于百科资源的多策略中文同义词自动抽取研究 [J].
陆勇 ;
章成志 ;
侯汉清 .
中国图书馆学报, 2010, 36 (01) :56-62
[5]   基于特征词关联性的同义词集挖掘算法 [J].
陈建超 ;
郑启伦 ;
李庆阳 ;
严桂夺 .
计算机应用研究, 2009, 26 (07) :2517-2519+2532
[6]   大规模中文搜索日志中查询重复性分析 [J].
窦志成 ;
袁晓洁 ;
何松柏 .
计算机工程, 2008, (21) :40-41+44
[7]   基于大规模中文搜索引擎的搜索日志挖掘 [J].
陈红涛 ;
杨放春 ;
陈磊 .
计算机应用研究, 2008, (06) :1663-1665
[8]   基于大规模日志分析的搜索引擎用户行为分析 [J].
余慧佳 ;
刘奕群 ;
张敏 ;
茹立云 ;
马少平 .
中文信息学报, 2007, (01) :109-114
[9]   A cooccurrence-based thesaurus and two applications to information retrieval [J].
Schutze, H ;
Pedersen, JO .
INFORMATION PROCESSING & MANAGEMENT, 1997, 33 (03) :307-318