Web网页信息文本分类的研究

被引：4

作者：

李净 ^{[1
,2
]}

袁小华 ^{[2
]}

沈晓晶 ^{[2
]}

机构：

[1] 同济大学电信学院

[2] 上海水产大学信息学院

来源：

计算机工程与设计 | 2008年 / 23期

关键词：

Web文本分类; 多主题; 多分类器; Boosting算法; 综合Bayesian分类法;

D O I：

10.16208/j.issn1000-7024.2008.23.057

中图分类号：

TP393.092 [];

学科分类号：

摘要：

面对海量的信息如何挖掘出有用的知识是当前研究的热点问题,对Web文本进行分类预处理,可在一定程度上解决此问题。针对Web文档的多主题特性,采用了多分类器模型,根据Web文档具有结构信息的特点,提出了系统的分类框架,对于短小文档采用Boosting和Web文档结构Bayesian分类模型,而对于长文档采用Boosting和综合Bayesian分类模型。实验结果表明,此分类框架具有较好的分类效果。

引用

页码：6026 / 6028

页数：3

共 5 条

[1]

A brief survey of Web data extraction tools [J].