一种高性能的两类中文文本分类方法

被引:64
作者
樊兴华
孙茂松
机构
[1] 清华大学计算机科学与技术系智能技术与系统国家重点实验室
关键词
文本分类; 文本过滤; 高性能; 中文信息处理;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
提出了一种高性能的两类中文文本分类方法.该方法采用两步分类策略:第1步以词性为动词、名词、形容词或副词的词语作为特征,以改进的互信息公式来选择特征,以朴素贝叶斯分类器进行分类.利用文本特征估算文本属于两种类型的测度X和Y,构造二维文本空间,将文本映射为二维空间中的一个点,将分类器看作是在二维空间中寻求一条分割直线.根据文本点到分割直线的距离将二维空间分为可靠和不可靠两部分,以此评估第1步分类结果,若第1步分类可靠,做出分类决策;否则进行第2步.第2步将文本看作由词性为动词或名词的词语构成的序列,以该序列中相邻两个词语构成的二元词语串作为特征,以改进互信息公式来选择特征,以朴素贝叶斯分类器进行分类.在由12600篇文本构成的数据集上运行的实验表明,两步文本分类方法达到了较高的分类性能,精确率、召回率和F1值分别为97.19%,93.94%和95.54%.
引用
收藏
页码:124 / 131
页数:8
相关论文
共 3 条
  • [1] Automatic Text Processing:The Transformation,Analy-sis,and Retrieval of Information by Computer. Salton G. . 1989
  • [2] Mach ine Learn ing. M itchell T.M. . 1996
  • [3] Mach ine learn ing in automated text categorization. Sebastian i F. ACM Computing Surveys . 2002