基于相对词频的文本特征抽取方法

被引:9
作者
张鹏飞
李赟
刘建毅
钟义信
机构
[1] 北京邮电大学智能研究中心
关键词
特征抽取; 特征向量; 评估函数; 相对词频;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
评估函数对已定义类别以外的语料区分度相对较低的问题出发,结合常用的停用词表功能,提出了基于与统计量相关的相对词频作评估函数的改进模型。该模型结合了现代汉语词频统计结果,使用相对词频选择特征词,较好地区分了特定类别与类别外文本。实验结果验证了这种方法的可行性,并且取得了较好的分类效果。
引用
收藏
页码:23 / 26
页数:4
相关论文
共 3 条
[1]  
FeatureSelectionforUnbalancedClassDistributionandNativeBayes. MladenicD,GrobelnikM. http://www2.cs.cmu.edu/afs/cs/project/theo4/text learning/www/ . 2000
[2]  
AComparativeStudyonFeatureSelectioninTextCategorization. YangY,PedersenJO. http://citeseer. nj. nec. com/yang97comparative.html . 1997
[3]  
Feature selection and feature extraction for text categorization. LEW IS DD. Proceedings of Speech and Natural LanguageW orkshop . 1992