基于多粒度树模型的Web站点描述及挖掘算法

被引:6
作者
田永鸿
黄铁军
高文
机构
[1] 中国科学院计算技术研究所
[2] 中国科学院计算技术研究所 北京
[3] 中国科学院研究生院
[4] 北京
[5] 哈尔滨工业大学计算机科学与工程系
[6] 黑龙江哈尔滨
关键词
算法; Web站点挖掘; 多粒度站点树; 上下文模型; 隐Markov树; 多粒度分类; 基于熵的剪枝;
D O I
10.13328/j.cnki.jos.2004.09.013
中图分类号
TP393 [计算机网络];
学科分类号
081201 ; 1201 ;
摘要
随着Web 所拥有的信息量和信息种类的急剧增长,Web 站点挖掘对于自动实现特定主题的 Web 资源发现和分类具有重要的意义.然而现有的 Web 站点分类或挖掘算法在利用上下文语义信息、去除噪声信息以进一步提高分类准确率等方面还缺乏深入研究.从站点的采样尺寸、分析粒度和描述结构 3 个方面分析了设计高效的 Web 站点挖掘算法所需要解决的问题.在此基础上,提出了一种新的 Web 站点多粒度树描述模型,并描述了包括基于隐 Markov 树的两阶段分类算法、粒度间上下文融合算法、两阶段去噪程序以及基于熵的动态剪枝策略在内的多粒度 Web 站点挖掘算法.站点的多粒度描述方法及挖掘算法为多站点查询优化、Web 效用挖掘等的深入研究奠定了基础.实验表明,该算法相对于基线系统平均可以提高 16%的分类准确率,并减少了 34.5%的处理时间.
引用
收藏
页码:1393 / 1404
页数:12
相关论文
共 2 条
[1]  
Constructing, organizing, and visualizing collections of topically related Web resources[J] . Loren Terveen,Will Hill,Brian Amento.ACM Transactions on Computer-Human Interaction (TOCHI) . 1999 (1)
[2]  
Focused crawling: a new approach to topic-specific Web resource discovery[J] . Soumen Chakrabarti,Martin van den Berg,Byron Dom.Computer Networks . 1999 (11)