基于结构和链接扩展的中文网页分类研究

被引:4
作者
刘菁菁
林鸿飞
机构
[1] 大连理工大学计算机科学与工程系
关键词
分类; 链接扩展; HTML标签; 网络结构;
D O I
10.19304/j.cnki.issn1000-7180.2007.09.056
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
在研究Web结构特征的基础上,综合网页的结构和内容,抽取网页不同区域的内容信息,并赋予不同权重来表明其重要程度的不同。按网页间相互链接关系,扩展链接,将链接源网页所含有的类别信息传播给目标网页,从而提高分类效果。实验证明,该方法比单独依赖网页内容信息的分类在效果上有所提高。
引用
收藏
页码:192 / 195
页数:4
相关论文
共 2 条
  • [1] 搜索引擎.[M].李晓明;闫宏飞;王继民著;.科学出版社.2005,
  • [2] 一种基于源网页质量的锚文本相似度计算方法——LAAT.[J].陆一鸣;胡健;马范援;.情报学报.2005, 05