一种词汇共现算法及共现词对检索系统排序的影响

被引:26
作者
陈翀
彭波
闫宏飞
王继民
机构
[1] 北京大学信息科学技术学院,北京大学信息科学技术学院,北京大学信息科学技术学院,北京大学信息科学技术学院北京,北京,北京,北京
关键词
共现词汇; 排序; 相关性; 信息检索;
D O I
10.16511/j.cnki.qhdxxb.2005.s1.028
中图分类号
TP391.3 [检索机];
学科分类号
080201 [机械制造及其自动化];
摘要
为了探讨共现词对检索系统排序相关性的影响,提出一种新的共现词汇算法——FDC。算法中考虑了词汇在文档中的共现频度、相对距离和共文档率。从天网搜索引擎查询日志中选取部分查询词,用本算法和潜在语义索引(LS I)方法分别求其共现词汇,并以相同的评分策略改变原始排序结果。D iscoun ted cum u lative ga in(DCG)评估结果表明,本算法获得的共现词在99%的置信度下对原始排序的相关性有改进;而LS I方法获得的共现词对排序相关性也表现出同样显著的改进效果。结果显示共现词汇能改进检索系统结果排序的相关性,并且不依赖于特定算法。
引用
收藏
页码:1857 / 1860
页数:4
相关论文
共 1 条
[1]