共 9 条
基于PMI-IR的联想词表构造方法研究
被引:1
作者:

论文数: 引用数:
h-index:
机构:

论文数: 引用数:
h-index:
机构:

张仰森
论文数: 0 引用数: 0
h-index: 0
机构: 北京信息科技大学计算机学院智能信息处理研究所
机构:
[1] 北京信息科技大学计算机学院智能信息处理研究所
来源:
关键词:
逐点互信息方法;
联想词表;
查询日志;
D O I:
暂无
中图分类号:
TP391.1 [文字信息处理];
学科分类号:
081203 ;
0835 ;
摘要:
通过对大规模查询日志进行挖掘分析进而提高检索的准确率一直是信息检索领域的热点问题。文章提出一种基于PMI-IR(逐点互信息方法)的联想词表构造方法。该方法利用序列模式挖掘算法扫描大规模用户查询日志,获取共现频次超过某一阈值的词组合,进行聚类获取候选同义词集,然后依次计算词wordA与每个候选词的相似度,选择相似度高于某一阈值的词作为词wordA的联想词集,最后形成联想词表。实验表明,借助该方法得到的联想词表进行扩展查询提高了检索的准确率。
引用
收藏
页码:140 / 144
页数:5
相关论文
共 9 条
[1]
基于半监督话题模型的用户查询日志命名实体挖掘
[J].
曹雷
;
郭嘉丰
;
白露
;
程学旗
.
中文信息学报,
2012, 26 (05)
:26-32

论文数: 引用数:
h-index:
机构:

郭嘉丰
论文数: 0 引用数: 0
h-index: 0
机构:
中国科学院计算技术研究所网络数据科学与工程研究中心 中国科学院计算技术研究所网络数据科学与工程研究中心

白露
论文数: 0 引用数: 0
h-index: 0
机构:
中国科学院计算技术研究所网络数据科学与工程研究中心
中国科学院研究生院 中国科学院计算技术研究所网络数据科学与工程研究中心

程学旗
论文数: 0 引用数: 0
h-index: 0
机构:
中国科学院计算技术研究所网络数据科学与工程研究中心 中国科学院计算技术研究所网络数据科学与工程研究中心
[2]
基于图的同义词集自动获取方法
[J].
吴云芳
;
石静
;
金澎
.
计算机研究与发展,
2011, 48 (04)
:610-616

论文数: 引用数:
h-index:
机构:

石静
论文数: 0 引用数: 0
h-index: 0
机构:
计算语言学教育部重点实验室(北京大学)
北京大学计算语言学研究所 计算语言学教育部重点实验室(北京大学)

金澎
论文数: 0 引用数: 0
h-index: 0
机构:
乐山师范学院智能信息处理及应用实验室 计算语言学教育部重点实验室(北京大学)
[3]
基于日志挖掘的搜索引擎用户行为分析
[J].
岑荣伟
;
刘奕群
;
张敏
;
茹立云
;
马少平
.
中文信息学报,
2010, (03)
:49-54

论文数: 引用数:
h-index:
机构:

刘奕群
论文数: 0 引用数: 0
h-index: 0
机构: 智能技术与系统国家重点实验室清华信息科学与技术国家实验室(筹)清华大学计算机科学与技术系

张敏
论文数: 0 引用数: 0
h-index: 0
机构: 智能技术与系统国家重点实验室清华信息科学与技术国家实验室(筹)清华大学计算机科学与技术系

茹立云
论文数: 0 引用数: 0
h-index: 0
机构: 智能技术与系统国家重点实验室清华信息科学与技术国家实验室(筹)清华大学计算机科学与技术系

马少平
论文数: 0 引用数: 0
h-index: 0
机构: 智能技术与系统国家重点实验室清华信息科学与技术国家实验室(筹)清华大学计算机科学与技术系
[4]
基于百科资源的多策略中文同义词自动抽取研究
[J].
陆勇
;
章成志
;
侯汉清
.
中国图书馆学报,
2010, 36 (01)
:56-62

陆勇
论文数: 0 引用数: 0
h-index: 0
机构:
南京信息工程大学 南京信息工程大学

章成志
论文数: 0 引用数: 0
h-index: 0
机构:
南京理工大学信息管理系
中国科学技术信息研究所在站 南京信息工程大学

侯汉清
论文数: 0 引用数: 0
h-index: 0
机构:
南京农业大学信息管理系 南京信息工程大学
[5]
基于特征词关联性的同义词集挖掘算法
[J].
陈建超
;
郑启伦
;
李庆阳
;
严桂夺
.
计算机应用研究,
2009, 26 (07)
:2517-2519+2532

论文数: 引用数:
h-index:
机构:

论文数: 引用数:
h-index:
机构:

论文数: 引用数:
h-index:
机构:

论文数: 引用数:
h-index:
机构:
[6]
大规模中文搜索日志中查询重复性分析
[J].
窦志成
;
袁晓洁
;
何松柏
.
计算机工程,
2008, (21)
:40-41+44

窦志成
论文数: 0 引用数: 0
h-index: 0
机构:
南开大学信息技术科学学院 南开大学信息技术科学学院

袁晓洁
论文数: 0 引用数: 0
h-index: 0
机构:
南开大学信息技术科学学院 南开大学信息技术科学学院

何松柏
论文数: 0 引用数: 0
h-index: 0
机构:
军事交通学院汽车指挥系 南开大学信息技术科学学院
[7]
基于大规模中文搜索引擎的搜索日志挖掘
[J].
陈红涛
;
杨放春
;
陈磊
.
计算机应用研究,
2008, (06)
:1663-1665

陈红涛
论文数: 0 引用数: 0
h-index: 0
机构: 北京邮电大学交换与智能控制研究中心

杨放春
论文数: 0 引用数: 0
h-index: 0
机构: 北京邮电大学交换与智能控制研究中心

陈磊
论文数: 0 引用数: 0
h-index: 0
机构: 北京邮电大学交换与智能控制研究中心
[8]
基于大规模日志分析的搜索引擎用户行为分析
[J].
余慧佳
;
刘奕群
;
张敏
;
茹立云
;
马少平
.
中文信息学报,
2007, (01)
:109-114

论文数: 引用数:
h-index:
机构:

刘奕群
论文数: 0 引用数: 0
h-index: 0
机构:
清华大学智能技术与系统国家重点实验室 清华大学智能技术与系统国家重点实验室

张敏
论文数: 0 引用数: 0
h-index: 0
机构:
清华大学智能技术与系统国家重点实验室 清华大学智能技术与系统国家重点实验室

茹立云
论文数: 0 引用数: 0
h-index: 0
机构:
搜狗公司研发中心 清华大学智能技术与系统国家重点实验室

马少平
论文数: 0 引用数: 0
h-index: 0
机构:
清华大学智能技术与系统国家重点实验室 清华大学智能技术与系统国家重点实验室
[9]
A cooccurrence-based thesaurus and two applications to information retrieval
[J].
Schutze, H
;
Pedersen, JO
.
INFORMATION PROCESSING & MANAGEMENT,
1997, 33 (03)
:307-318

Schutze, H
论文数: 0 引用数: 0
h-index: 0
机构: Xerox Palo Alto Research Center, Palo Alto, CA 94304

Pedersen, JO
论文数: 0 引用数: 0
h-index: 0
机构: Xerox Palo Alto Research Center, Palo Alto, CA 94304