Web网页信息文本分类的研究

被引:4
作者
李净 [1 ,2 ]
袁小华 [2 ]
沈晓晶 [2 ]
机构
[1] 同济大学电信学院
[2] 上海水产大学信息学院
关键词
Web文本分类; 多主题; 多分类器; Boosting算法; 综合Bayesian分类法;
D O I
10.16208/j.issn1000-7024.2008.23.057
中图分类号
TP393.092 [];
学科分类号
摘要
面对海量的信息如何挖掘出有用的知识是当前研究的热点问题,对Web文本进行分类预处理,可在一定程度上解决此问题。针对Web文档的多主题特性,采用了多分类器模型,根据Web文档具有结构信息的特点,提出了系统的分类框架,对于短小文档采用Boosting和Web文档结构Bayesian分类模型,而对于长文档采用Boosting和综合Bayesian分类模型。实验结果表明,此分类框架具有较好的分类效果。
引用
收藏
页码:6026 / 6028
页数:3
相关论文
共 5 条
[1]
A brief survey of Web data extraction tools [J].
Laender, AHF ;
Ribeiro-Neto, BA ;
da Silva, AS ;
Teixeira, JS .
SIGMOD RECORD, 2002, 31 (02) :84-93
[2]
基于Boosting机制的Naive Bayesian文本分类器 [J].
崔林 ;
付克明 ;
石生树 ;
宋瀚涛 .
计算机工程与应用, 2005, (08) :31-33+67
[3]
基于kNN的快速WEB文档分类 [J].
李杨 ;
曾海泉 ;
刘庆华 ;
胡运发 .
小型微型计算机系统, 2004, (04) :725-729
[4]
Boosting算法在文本自动分类中的应用 [J].
肖江 ;
张亚非 .
解放军理工大学学报(自然科学版), 2003, (02) :25-28
[5]
用Naive Bayes方法协调分类Web网页 [J].
范焱 ;
郑诚 ;
王清毅 ;
蔡庆生 ;
刘洁 .
软件学报, 2001, (09) :1386-1392