网页分类技术

被引:28
作者
孙建涛
沈抖
陆玉昌
石纯一
机构
[1] 清华大学计算机科学与技术系智能技术与系统国家重点实验室
关键词
机器学习; 网页分类; 文本分类; 网络挖掘;
D O I
10.16511/j.cnki.qhdxxb.2004.01.017
中图分类号
TP393.092 [];
学科分类号
摘要
网页分类是使用机器学习的方法实现网页类别的自动标注。回顾了文本分类技术的研究状况,分析了网页的结构特征,难点在于结合网页的结构信息选择合理的表示方式和分类算法。使用纯文本分类技术处理网页是不合理的。基于概率模型的方法和关系学习方法计算量大,关系学习方法学习结果的可解释性好,支持向量机方法分类准确率高,但核函数的构造和大规模数据集的训练都是该算法的难题。应该采用多种指标对网页分类算法进行评价。
引用
收藏
页码:65 / 68
页数:4
相关论文
共 5 条
  • [1] 用Naive Bayes方法协调分类Web网页
    范焱
    郑诚
    王清毅
    蔡庆生
    刘洁
    [J]. 软件学报, 2001, (09) : 1386 - 1392
  • [2] Text Categorization with Support Vector Machines. How to Represent Texts in Input Space?[J] . Machine Learning . 2002 (1)
  • [3] A Study of Approaches to Hypertext Categorization
    Yiming Yang
    Seán Slattery
    Rayid Ghani
    [J]. Journal of Intelligent Information Systems, 2002, 18 : 219 - 241
  • [4] Relational Learning with Statistical Predicate Invention: Better Models for Hypertext[J] . Mark Craven,Seán Slattery.Machine Learning . 2001 (1)
  • [5] SUPPORT-VECTOR NETWORKS
    CORTES, C
    VAPNIK, V
    [J]. MACHINE LEARNING, 1995, 20 (03) : 273 - 297