中文网页信息检索测试集的构建、分析及应用

被引:7
作者
李静静
闫宏飞
机构
[1] 北京大学
关键词
计算机应用; 中文信息处理; CWT; 信息检索; 评测; 测试集; 文档集;
D O I
暂无
中图分类号
TP391.3 [检索机];
学科分类号
摘要
随着WWW的迅速发展,Web信息检索技术成为研究者广泛关注的话题,但缺少合适的测试评测机制制约了中文网页信息检索技术的发展。参考国外测试集的构建经验,我们构建了大规模中文网页信息检索测试集CWT,并组织了SEWM中文网页检索评测,希望在国内外各个研究小组的共同参与下建立并完善CWT,一起推动中文网页信息检索技术的发展。本文在调研和分析国内外现有研究进展的基础上,详细介绍了CWT的构建原则和方法,并对CWT进行了有效的统计分析和实验研究。本文提出的构建测试集的方法为以后的研究提供了参考。
引用
收藏
页码:30 / 36
页数:7
相关论文
共 3 条
  • [1] 关于中国Web的大小、形状和结构
    闫宏飞
    李晓明
    [J]. 计算机研究与发展, 2002, (08) : 958 - 967
  • [2] The First Text RetrievalConference(TREC-1) .2 Donna K Harman. Information Processing andManagement . 1993
  • [3] Evaluation by Highly RelevantDocuments .2 Ellen M Voorhees. Proceedings of the 24th AnnualInternational ACM SIGIR Conference on Researchand Development in Information Retrieval . 2001