学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
DF还是IDF?主特征模型在Web信息检索中的使用
被引:10
作者
:
张敏
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机科学与技术系
张敏
马少平
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机科学与技术系
马少平
宋睿华
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机科学与技术系
宋睿华
机构
:
[1]
清华大学计算机科学与技术系
[2]
清华大学计算机科学与技术系 北京
来源
:
软件学报
|
2005年
/ 05期
关键词
:
Web信息检索;
主特征模型;
权值计算;
文档频度;
D O I
:
暂无
中图分类号
:
TP393.09 [];
学科分类号
:
080402 ;
摘要
:
Web信息检索的难点之一就是简短、模糊的用户查询与存在大量冗余和噪声的文档之间的不匹配.对Web文档信息特征进行分析,提出Web文档主特征词、主特征域和主特征空间的概念,在该空间上使用文档频度DF(document frequency)信息而非传统意义上的IDF(inverse document frequency)信息进行权值计算,并给出一个改进的相似度计算模型.使用该模型在10G和19G的两个大规模Web文档集合上进行了3组标准测试.比较实验表明,与传统IDF思想相比,在各项评价指标上,DF相关的主特征权值计算方法都能始终较大幅度地提高系统性能,最大达到18.6%的性能改善.
引用
收藏
页码:1012 / 1020
页数:9
相关论文
共 1 条
[1]
Introduction to web information retrieval: A user perspective[J] . Srinath Srinivasa,P. C. P. Bhatt.Resonance . 2002 (6)
←
1
→
共 1 条
[1]
Introduction to web information retrieval: A user perspective[J] . Srinath Srinivasa,P. C. P. Bhatt.Resonance . 2002 (6)
←
1
→