动态自适应特征权重的多类文本分类算法研究

被引:8
作者
裴颂文 [1 ]
吴百锋 [2 ]
机构
[1] 上海理工大学计算机科学与工程系
[2] 复旦大学计算机科学技术学院
关键词
文本分类; 特征权重; TF-IDF; 分散度; 梯度差;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
文本分类是研究文本数据挖掘、信息检索的重要手段,文本特征项权重值的计算是文本分类算法的关键。针对经典的特征权重计算方法 TF-IDF中存在的不足,提出了一种动态自适应特征权重计算方法(DATW)。该算法不仅考虑了特征项在文本中出现的频率及该特征项所属文本在训练集中的数量,而且通过考查特征项的分散度和特征向量梯度差以自适应动态文本的分类。实验结果表明,采用DATW方法计算特征权重可以有效提高文本分类的性能。
引用
收藏
页码:4092 / 4096
页数:5
相关论文
共 3 条
[1]   An improved TF-IDF approach for text classification [J].
张云涛 ;
龚玲 ;
王永成 .
Journal of Zhejiang University Science A(Science in Engineering), 2005, (01) :50-56
[2]   用Naive Bayes方法协调分类Web网页 [J].
范焱 ;
郑诚 ;
王清毅 ;
蔡庆生 ;
刘洁 .
软件学报, 2001, (09) :1386-1392
[3]  
A vector space model for automatic indexing[J] . G. Salton,A. Wong,C. S. Yang. Communications of the ACM . 1975 (11)