随着信息技术的不断普及,人们对信息资源的依赖性越来越大,如何实现信息的自动分类,尤其是中文文本信息的有效分类是目前中文信息处理研究的一个重要分支领域。
目前大多数的中文文本分类系统采用了“训练-分类”模式,二者相对独立,而且其训练过程只是针对单一训练语料进行,是一种“被动的”学习过程。采用这种方法,分类系统的性能完全依赖于训练语料的质量,缺乏适应性,不适宜海量、异构、动态的文本信息的处理要求。针对这种情况本文在对传统文本分类模型进行分析研究的基础上提出了一种基于主动学习的中文文本分类系统ALCTCS,并对该系统的体系结构、特征选择以及分类过程进行了深入研究。
所作的具体工作及成果主要体现在以下几个方面:
首先,构造了ALCTCS的体系模型。该系统将训练过程延伸到分类过程中,以训练驱动分类,以分类结果的反馈进行再训练,使得训练与分类两个过程成为了一个有机整体。由于该系统在训练中引入了主动学习机制,从而打破了训练、分类相对独立的传统模式,同时在训练过程中又克服了对训练语料的完全依赖性,从而增强了系统的自适应性。
其次,在TF、MI组合算法的基础上,引入了特征的“备用-选择”机制,构造并设计了一种基于包装器模型的中文特征选择算法,该算法既克服了组合算法的特征信息丢失问题,又具有反映文本特征迁移的适应性。
再次,利用文本聚类的中心点思想,构造并设计了一种基于聚簇的文本分类算法,较好的平衡了分类过程中的时间效率和分类准确度。
最后,通过实验对本文构造及设计的基于中文的特征选择算法和文本分类算法进行了验证,并分析了它们的性能。