有效地检索HTML文档

被引:22
作者
刘芳
卢正鼎
机构
[1] 华中理工大学计算机学院应用系!武汉
关键词
WWW HTML; 信息检索; 向量空间模型; 聚簇;
D O I
暂无
中图分类号
TP393 [计算机网络];
学科分类号
081201 ; 1201 ;
摘要
WWW上的资源大多以 HTML 格式的文档存储 ,同普通文档不同 ,HTML 文档的标签特性使得它具有一定的结构 .我们采取了一种检索方法 ,它扩展了传统的信息检索 ,利用 HTML文档结构提高了在 WWW环境下的检索效率 .本文介绍了 HTML的结构以及传统的向量空间信息检索 ;提出运用聚簇方法为标签分组 ;最后详细讨论了如何利用文档结构扩展加权框架 ,使得检索词能更贴切地描述文档 ,以提高检索的准确性 .
引用
收藏
页码:986 / 988
页数:3
相关论文
empty
未找到相关数据