贝叶斯分类器研究及其在Web文档分类中的应用

被引:0
作者
侯小静
机构
[1] 郑州大学
关键词
贝叶斯分类器; Web文档; 特征选择; Boosting; Bagging;
D O I
暂无
年度学位
2005
学位类型
硕士
导师
摘要
Web上的信息资源有着海量、动态、异构、半结构化等显著特点,由于缺乏统一的组织和管理而显得杂乱无章,给Web检索带来了一定的困难。使用Web文档自动分类技术可以更加有效地组织和管理Web资源,提高信息检索的效率,它目前已成为Web挖掘的研究热点之一。 作为数据挖掘中的重要分类算法,贝叶斯分类器有着易于实现、工作效率高等优点。本文从贝叶斯网络入手,研究了各种基于贝叶斯网络的分类器的工作原理,按照网络中属性结点间的依赖关系将分类模型归纳为三类,重点讨论了其中有代表性的分类器的学习方法,并用贝叶斯分类器为工具研究Web文档的分类问题。 网页是Web信息的主要表现形式,其绝大多数以HTML文档形式存在。本文首先分析了Web页面的组织特点,对文本自动分类中使用到的向量空间模型、分词、特征选择等关键技术进行了深入的探讨,并实现了一个多项式朴素贝叶斯分类器对中文网页进行分类。文中在大量实验的基础上对文档频率、信息增益、互信息、开方拟和检验、文本证据权、期望交叉熵、优势率等七种文本特征选择方案进行了对比研究与分析。针对于单分类器的弱点,提出利用两种组合分类技术Boosting与Bagging实现多个文本分类器的集成以提高分类的准确率,并通过实验证实了组合方案的有效性。 最后,本文讨论了一种使用贝叶斯网络对半结构化的Web文档进行表示和分类的方法。
引用
收藏
页数:64
共 10 条
[1]
A study of approaches to hypertext categorization [J].
Yang, YM ;
Slattery, S ;
Ghani, R .
JOURNAL OF INTELLIGENT INFORMATION SYSTEMS, 2002, 18 (2-3) :219-241
[2]
BoosTexter: A boosting-based system for text categorization [J].
Schapire, RE ;
Singer, Y .
MACHINE LEARNING, 2000, 39 (2-3) :135-168
[3]
An Evaluation of Statistical Approaches to Text Categorization [J].
Yiming Yang .
Information Retrieval, 1999, 1 (1-2) :69-90
[4]
Bayesian network classifiers [J].
Friedman, N ;
Geiger, D ;
Goldszmidt, M .
MACHINE LEARNING, 1997, 29 (2-3) :131-163
[5]
机器学习.[M].(美)TomM.Mitchell著;曾华军;张银奎等译;.机械工业出版社.2003,
[6]
基于贝叶斯网络的分类器研究 [J].
周颜军 ;
王双成 ;
王辉 .
东北师大学报(自然科学版), 2003, (02) :21-27
[7]
用于入侵检测的贝叶斯网络 [J].
张琨 ;
徐永红 ;
王珩 ;
刘凤玉 .
小型微型计算机系统, 2003, (05) :913-915
[8]
基于Boost和信任函数的多文本分类器组合模型 [J].
王爱华 ;
张铭 ;
杨冬青 ;
唐世渭 ;
不详 .
计算机工程与应用 , 2002, (02) :51-54
[9]
用Naive Bayes方法协调分类Web网页 [J].
范焱 ;
郑诚 ;
王清毅 ;
蔡庆生 ;
刘洁 .
软件学报, 2001, (09) :1386-1392
[10]
An extensive empirical study of feature selection metrics for text classification..George Forman;.Journal of Machine Learning Research.2003,