基于特征信息增益权重的文本分类算法

被引:17
作者
李文斌 [1 ]
刘椿年 [1 ]
陈嶷瑛 [2 ]
机构
[1] 北京工业大学计算机学院多媒体与智能软件技术北京重点实验室
[2] 石家庄经济学院信息工程系
基金
北京市自然科学基金;
关键词
文本处理; 信息分类; 特征提取; 熵;
D O I
暂无
中图分类号
TP18 [人工智能理论];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ;
摘要
为了在分类精度不受损失的情况下提高训练速度,设计了3种基于信息增益(information gain,简称IG) 特征权重的分类算法,分别被命名为:IG-C1、IG-C2、IG-C.它们根据特征对IG贡献的大小及在新文本中出现的次数进行分类.这3种算法都具有较低的时间复杂度和实现简单的特点.实验结果表明,其中IG-C的分类效果最为理想.
引用
收藏
页码:456 / 460
页数:5
相关论文
共 1 条
[1]   向量空间法中单词权重函数的分析和构造 [J].
陆玉昌 ;
鲁明羽 ;
李凡 ;
周立柱 .
计算机研究与发展, 2002, (10) :1205-1210