中文文本自动分类的研究

被引:0
作者
孙丽华
机构
[1] 哈尔滨工程大学
关键词
中文信息处理; 中文文本自动分类; 贝叶斯分类器; K近邻分类器; 支持向量机;
D O I
暂无
年度学位
2002
学位类型
硕士
导师
摘要
本文较系统地综述了中文文本分类中自动分词技术、特征提取技术、文本分类模型和性能评估技术的研究现状和研究方法。较全面地讨论了贝叶斯方法、k近邻方法和支持向量机等三种中文文本分类方法。作者采用三个模型,实现了朴素贝叶斯分类器、k近邻分类器和支持向量机分类器三个中文文本分类器,集成了一个实用性较强的实验系统。 深入地分析了k近邻方法的不足,提出了改进的k近邻方法,提高了分类器的性能。 重点讨论了支持向量机的相关问题。概述了统计学习理论的主要内容,推导了支持向量机方法在文本线性可分、线性不可分和非线性可分情况下实现分类的数学公式,将学习问题转化为一个在等式约束和不等式约束下的凸二次优化问题,总结了求解的过程。针对超大规模文本库的训练与评估问题,采用分解算法,迭代求解,然后利用基于Leave-One-Out技术的ξα评估方法快速有效地计算错误率、准确率、召回率和F1指标。证明了分解算法的有效性,在实验系统中采取了五种加速训练的措施。采用组合结构实现N个类别的支持向量机多分类器。针对支持向量机多类器中存在的文本漏识问题,采取kNN方法和特征匹配方法进行后处理,对失效文本实施二次分类,改善了多分类器的性能。 实验表明,三种分类器都适合于中文文本分类的需要,其中支持向量机分类器的分类结果稳定,精度高,性能最好。而将k近邻方法和特征匹配方法与支持向量机相结合形成的支持向量机多分类器更加适用于中文文本分类的需要。
引用
收藏
页数:80
共 11 条
[1]
支持向量机的理论基础——统计学习理论 [J].
王国胜 ;
钟义信 .
计算机工程与应用, 2001, (19) :19-20+31
[2]
支持向量机在大类别数分类中的应用 [J].
王建芬 ;
曹元大 .
北京理工大学学报, 2001, (02) :225-228
[3]
PCCS部分聚类分类:一种快速的Web文档聚类方法 [J].
王爱华 ;
张铭 ;
杨冬青 ;
唐世渭 ;
不详 .
计算机研究与发展 , 2001, (04) :415-421
[4]
独立于语种的文本分类方法 [J].
黄萱菁 ;
吴立德 ;
石崎洋之 ;
徐国伟 .
中文信息学报, 2000, (06) :1-7
[5]
自动分类研究进展 [J].
肖明 ;
沈英 .
现代图书情报技术, 2000, (05) :25-28
[6]
一种大类别数分类的神经网络方法 [J].
岳喜才 ;
伍晓宇 ;
郑崇勋 ;
叶大田 ;
不详 .
计算机研究与发展 , 2000, (03) :278-283
[7]
关于统计学习理论与支持向量机 [J].
张学工 .
自动化学报, 2000, (01)
[8]
自动分类研究现状与展望 [J].
成颖 ;
史九林 .
情报学报, 1999, (01)
[9]
Text classification from labeled and unlabeled documents using EM [J].
Nigam, K ;
McCallum, AK ;
Thrun, S ;
Mitchell, T .
MACHINE LEARNING, 2000, 39 (2-3) :103-134
[10]
模式识别.[M].边肇祺等编著;.清华大学出版社.2000,