基于图的Co-Training网页分类

被引:8
作者
侯翠琴
焦李成
机构
[1] 西安电子科技大学智能信息处理研究所和智能感知与图像理解教育部重点实验室
关键词
图; 半监督; Co-training; 归纳式; 网页分类;
D O I
暂无
中图分类号
TP393.092 [];
学科分类号
摘要
本文充分利用网页数据的超链接关系和文本信息,提出了一种用于网页分类的归纳式半监督学习算法:基于图的Co-training网页分类算法(Graph based Co-training algorithmfor web page classification),简称GCo-training,并从理论上证明了算法的有效性.GCo-training在Co-training算法框架下,迭代地学习一个基于由超链接信息构造的图的半监督分类器和一个基于文本特征的Bayes分类器.基于图的半监督分类器只利用少量的标记数据,通过挖掘数据间大量的关系信息就可达到比较高的预测精度,可为Bayes分类器提供大量的标记信息;反过来学习大量标记信息后的Bayes分类器也可为基于图的分类器提供有效信息.迭代过程中,二者互相帮助,不断提高各自的性能,而后Bayes分类器可以用来预测大量未见数据的类别.在Web→KB数据集上的实验结果表明,与利用文本特征和锚文本特征的Co-training算法和基于EM的Bayes算法相比,GCo-training算法性能优越.
引用
收藏
页码:2173 / 2180+2219 +2219
页数:9
相关论文
共 5 条
[1]   An iterative algorithm for extending learners to a semi-supervised setting [J].
Culp, Mark ;
Michailidis, George .
JOURNAL OF COMPUTATIONAL AND GRAPHICAL STATISTICS, 2008, 17 (03) :545-571
[2]  
Learning to construct knowledge bases from the World Wide Web[J] . Mark Craven,Dan DiPasquo,Dayne Freitag,Andrew McCallum,Tom Mitchell,Kamal Nigam,Seán Slattery.Artificial Intelligence . 2000 (1)
[3]   Text Classification from Labeled and Unlabeled Documents using EM [J].
Kamal Nigam ;
Andrew Kachites Mccallum ;
Sebastian Thrun ;
Tom Mitchell .
Machine Learning, 2000, 39 :103-134
[4]  
Learning from noisy examples[J] . Dana Angluin,Philip Laird.Machine Learning . 1988 (4)
[5]  
Semi-supervised learning using Gaussian fields and harmonic functions .2 Zhu X,Ghahramani Z,and Lafferty J. . 2003