学术探索
学术期刊
学术作者
新闻热点
数据分析
智能评审
Web网页信息文本分类的研究
被引:4
作者
:
论文数:
引用数:
h-index:
机构:
李净
[
1
,
2
]
论文数:
引用数:
h-index:
机构:
袁小华
[
2
]
论文数:
引用数:
h-index:
机构:
沈晓晶
[
2
]
机构
:
[1]
同济大学电信学院
[2]
上海水产大学信息学院
来源
:
计算机工程与设计
|
2008年
/ 23期
关键词
:
Web文本分类;
多主题;
多分类器;
Boosting算法;
综合Bayesian分类法;
D O I
:
10.16208/j.issn1000-7024.2008.23.057
中图分类号
:
TP393.092 [];
学科分类号
:
摘要
:
面对海量的信息如何挖掘出有用的知识是当前研究的热点问题,对Web文本进行分类预处理,可在一定程度上解决此问题。针对Web文档的多主题特性,采用了多分类器模型,根据Web文档具有结构信息的特点,提出了系统的分类框架,对于短小文档采用Boosting和Web文档结构Bayesian分类模型,而对于长文档采用Boosting和综合Bayesian分类模型。实验结果表明,此分类框架具有较好的分类效果。
引用
收藏
页码:6026 / 6028
页数:3
相关论文
共 5 条
[1]
A brief survey of Web data extraction tools
[J].
Laender, AHF
论文数:
0
引用数:
0
h-index:
0
机构:
Univ Fed Minas Gerais, Dept Comp Sci, BR-31270901 Belo Horizonte, MG, Brazil
Univ Fed Minas Gerais, Dept Comp Sci, BR-31270901 Belo Horizonte, MG, Brazil
Laender, AHF
;
Ribeiro-Neto, BA
论文数:
0
引用数:
0
h-index:
0
机构:
Univ Fed Minas Gerais, Dept Comp Sci, BR-31270901 Belo Horizonte, MG, Brazil
Univ Fed Minas Gerais, Dept Comp Sci, BR-31270901 Belo Horizonte, MG, Brazil
Ribeiro-Neto, BA
;
da Silva, AS
论文数:
0
引用数:
0
h-index:
0
机构:
Univ Fed Minas Gerais, Dept Comp Sci, BR-31270901 Belo Horizonte, MG, Brazil
Univ Fed Minas Gerais, Dept Comp Sci, BR-31270901 Belo Horizonte, MG, Brazil
da Silva, AS
;
Teixeira, JS
论文数:
0
引用数:
0
h-index:
0
机构:
Univ Fed Minas Gerais, Dept Comp Sci, BR-31270901 Belo Horizonte, MG, Brazil
Univ Fed Minas Gerais, Dept Comp Sci, BR-31270901 Belo Horizonte, MG, Brazil
Teixeira, JS
.
SIGMOD RECORD,
2002,
31
(02)
:84
-93
[2]
基于Boosting机制的Naive Bayesian文本分类器
[J].
论文数:
引用数:
h-index:
机构:
崔林
;
付克明
论文数:
0
引用数:
0
h-index:
0
机构:
北京理工大学计算机科学工程系,烟台大学光电信息科学与技术学院,黑龙江大学计算机科学技术学院,北京理工大学计算机科学工程系北京,烟台,哈尔滨,北京
付克明
;
石生树
论文数:
0
引用数:
0
h-index:
0
机构:
北京理工大学计算机科学工程系,烟台大学光电信息科学与技术学院,黑龙江大学计算机科学技术学院,北京理工大学计算机科学工程系北京,烟台,哈尔滨,北京
石生树
;
论文数:
引用数:
h-index:
机构:
宋瀚涛
.
计算机工程与应用,
2005,
(08)
:31
-33+67
[3]
基于kNN的快速WEB文档分类
[J].
论文数:
引用数:
h-index:
机构:
李杨
;
论文数:
引用数:
h-index:
机构:
曾海泉
;
刘庆华
论文数:
0
引用数:
0
h-index:
0
机构:
复旦大学计算机系数据库中心,复旦大学计算机系数据库中心,江西省南昌高等专科学校计算机系,复旦大学计算机系数据库中心上海,上海,江西南昌,上海
刘庆华
;
胡运发
论文数:
0
引用数:
0
h-index:
0
机构:
复旦大学计算机系数据库中心,复旦大学计算机系数据库中心,江西省南昌高等专科学校计算机系,复旦大学计算机系数据库中心上海,上海,江西南昌,上海
胡运发
.
小型微型计算机系统,
2004,
(04)
:725
-729
[4]
Boosting算法在文本自动分类中的应用
[J].
肖江
论文数:
0
引用数:
0
h-index:
0
机构:
解放军理工大学通信工程学院
肖江
;
张亚非
论文数:
0
引用数:
0
h-index:
0
机构:
解放军理工大学通信工程学院
张亚非
.
解放军理工大学学报(自然科学版),
2003,
(02)
:25
-28
[5]
用Naive Bayes方法协调分类Web网页
[J].
范焱
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学技术大学计算机科学与技术系
范焱
;
郑诚
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学技术大学计算机科学与技术系
郑诚
;
王清毅
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学技术大学计算机科学与技术系
王清毅
;
蔡庆生
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学技术大学计算机科学与技术系
蔡庆生
;
刘洁
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学技术大学计算机科学与技术系
刘洁
.
软件学报,
2001,
(09)
:1386
-1392
←
1
→
共 5 条
[1]
A brief survey of Web data extraction tools
[J].
Laender, AHF
论文数:
0
引用数:
0
h-index:
0
机构:
Univ Fed Minas Gerais, Dept Comp Sci, BR-31270901 Belo Horizonte, MG, Brazil
Univ Fed Minas Gerais, Dept Comp Sci, BR-31270901 Belo Horizonte, MG, Brazil
Laender, AHF
;
Ribeiro-Neto, BA
论文数:
0
引用数:
0
h-index:
0
机构:
Univ Fed Minas Gerais, Dept Comp Sci, BR-31270901 Belo Horizonte, MG, Brazil
Univ Fed Minas Gerais, Dept Comp Sci, BR-31270901 Belo Horizonte, MG, Brazil
Ribeiro-Neto, BA
;
da Silva, AS
论文数:
0
引用数:
0
h-index:
0
机构:
Univ Fed Minas Gerais, Dept Comp Sci, BR-31270901 Belo Horizonte, MG, Brazil
Univ Fed Minas Gerais, Dept Comp Sci, BR-31270901 Belo Horizonte, MG, Brazil
da Silva, AS
;
Teixeira, JS
论文数:
0
引用数:
0
h-index:
0
机构:
Univ Fed Minas Gerais, Dept Comp Sci, BR-31270901 Belo Horizonte, MG, Brazil
Univ Fed Minas Gerais, Dept Comp Sci, BR-31270901 Belo Horizonte, MG, Brazil
Teixeira, JS
.
SIGMOD RECORD,
2002,
31
(02)
:84
-93
[2]
基于Boosting机制的Naive Bayesian文本分类器
[J].
论文数:
引用数:
h-index:
机构:
崔林
;
付克明
论文数:
0
引用数:
0
h-index:
0
机构:
北京理工大学计算机科学工程系,烟台大学光电信息科学与技术学院,黑龙江大学计算机科学技术学院,北京理工大学计算机科学工程系北京,烟台,哈尔滨,北京
付克明
;
石生树
论文数:
0
引用数:
0
h-index:
0
机构:
北京理工大学计算机科学工程系,烟台大学光电信息科学与技术学院,黑龙江大学计算机科学技术学院,北京理工大学计算机科学工程系北京,烟台,哈尔滨,北京
石生树
;
论文数:
引用数:
h-index:
机构:
宋瀚涛
.
计算机工程与应用,
2005,
(08)
:31
-33+67
[3]
基于kNN的快速WEB文档分类
[J].
论文数:
引用数:
h-index:
机构:
李杨
;
论文数:
引用数:
h-index:
机构:
曾海泉
;
刘庆华
论文数:
0
引用数:
0
h-index:
0
机构:
复旦大学计算机系数据库中心,复旦大学计算机系数据库中心,江西省南昌高等专科学校计算机系,复旦大学计算机系数据库中心上海,上海,江西南昌,上海
刘庆华
;
胡运发
论文数:
0
引用数:
0
h-index:
0
机构:
复旦大学计算机系数据库中心,复旦大学计算机系数据库中心,江西省南昌高等专科学校计算机系,复旦大学计算机系数据库中心上海,上海,江西南昌,上海
胡运发
.
小型微型计算机系统,
2004,
(04)
:725
-729
[4]
Boosting算法在文本自动分类中的应用
[J].
肖江
论文数:
0
引用数:
0
h-index:
0
机构:
解放军理工大学通信工程学院
肖江
;
张亚非
论文数:
0
引用数:
0
h-index:
0
机构:
解放军理工大学通信工程学院
张亚非
.
解放军理工大学学报(自然科学版),
2003,
(02)
:25
-28
[5]
用Naive Bayes方法协调分类Web网页
[J].
范焱
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学技术大学计算机科学与技术系
范焱
;
郑诚
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学技术大学计算机科学与技术系
郑诚
;
王清毅
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学技术大学计算机科学与技术系
王清毅
;
蔡庆生
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学技术大学计算机科学与技术系
蔡庆生
;
刘洁
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学技术大学计算机科学与技术系
刘洁
.
软件学报,
2001,
(09)
:1386
-1392
←
1
→