基于主动学习的中文文本分类

被引:0
作者
孙国欣
机构
[1] 兰州大学
关键词
中文文本; 分类; 特征选择; 包装器; 聚簇;
D O I
暂无
年度学位
2006
学位类型
硕士
导师
摘要
随着信息技术的不断普及,人们对信息资源的依赖性越来越大,如何实现信息的自动分类,尤其是中文文本信息的有效分类是目前中文信息处理研究的一个重要分支领域。 目前大多数的中文文本分类系统采用了“训练-分类”模式,二者相对独立,而且其训练过程只是针对单一训练语料进行,是一种“被动的”学习过程。采用这种方法,分类系统的性能完全依赖于训练语料的质量,缺乏适应性,不适宜海量、异构、动态的文本信息的处理要求。针对这种情况本文在对传统文本分类模型进行分析研究的基础上提出了一种基于主动学习的中文文本分类系统ALCTCS,并对该系统的体系结构、特征选择以及分类过程进行了深入研究。 所作的具体工作及成果主要体现在以下几个方面: 首先,构造了ALCTCS的体系模型。该系统将训练过程延伸到分类过程中,以训练驱动分类,以分类结果的反馈进行再训练,使得训练与分类两个过程成为了一个有机整体。由于该系统在训练中引入了主动学习机制,从而打破了训练、分类相对独立的传统模式,同时在训练过程中又克服了对训练语料的完全依赖性,从而增强了系统的自适应性。 其次,在TF、MI组合算法的基础上,引入了特征的“备用-选择”机制,构造并设计了一种基于包装器模型的中文特征选择算法,该算法既克服了组合算法的特征信息丢失问题,又具有反映文本特征迁移的适应性。 再次,利用文本聚类的中心点思想,构造并设计了一种基于聚簇的文本分类算法,较好的平衡了分类过程中的时间效率和分类准确度。 最后,通过实验对本文构造及设计的基于中文的特征选择算法和文本分类算法进行了验证,并分析了它们的性能。
引用
收藏
页数:50
共 16 条
[2]
基于损失最小化的SVM多类网页分类算法 [J].
邵浩然 ;
张亮 ;
马范援 .
计算机应用与软件, 2005, (07) :16-17+50
[3]
汉语自动分词的研究现状与困难 [J].
张春霞 ;
郝天永 .
系统仿真学报, 2005, (01) :138-143+147
[4]
文本分类中结合评估函数的TEF-WA权值调整技术 [J].
唐焕玲 ;
孙建涛 ;
陆玉昌 .
计算机研究与发展, 2005, (01) :47-53
[5]
文本自动分类中特征权重算法的改进研究 [J].
徐凤亚 ;
罗振声 .
计算机工程与应用, 2005, (01) :181-184+220
[6]
使用最大熵模型进行文本分类 [J].
陈雪天 ;
李荣陆 ;
不详 .
计算机工程与应用 , 2004, (35) :78-79+195
[7]
基于SVM的中文文本分类反馈学习技术的研究 [J].
孙晋文 ;
肖建国 ;
不详 .
控制与决策 , 2004, (08) :927-930
[8]
网页分类技术 [J].
孙建涛 ;
沈抖 ;
陆玉昌 ;
石纯一 .
清华大学学报(自然科学版), 2004, (01) :65-68
[9]
中文文本分类中特征抽取方法的比较研究 [J].
代六玲 ;
黄河燕 ;
陈肇雄 .
中文信息学报, 2004, (01) :26-32
[10]
几种典型特征选取方法在中文网页分类上的效果比较 [J].
单松巍 ;
冯是聪 ;
李晓明 ;
不详 .
计算机工程与应用 , 2003, (22) :146-148