改进TF-IDF算法的文本特征项权值计算方法

被引:54
作者
路永和
李焰锋
机构
[1] 中山大学资讯管理学院
基金
国家高技术研究发展计划(863计划);
关键词
文本分类; TF-IDF; 特征权重; 类别区分;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
首先,从特征项重要性和类别区分能力的角度出发,通过分析传统的权重函数TF-IDF(termfrequency-inverse document frequency)及其相关改进算法,研究文本分类中向量化时的特征权重计算,构建权重修正函数TW。其次,通过对特征词的卡方分布和TW作对比实验,验证TW能提高类别中专有词汇的权值,降低常见但对分类不重要的特征的权值。最后,将TW与TF-IDF结合作为新的特征权重算法,通过在中文分类语料库上的实际分类实验,与其他权重算法比较,验证此种算法的有效性。
引用
收藏
页码:90 / 95
页数:6
相关论文
共 10 条
[1]   一种基于最少出现文档频的文本特征提取方法 [J].
苏丹 ;
周明全 ;
王学松 ;
任玉芝 .
计算机工程与应用, 2012, 48 (10) :164-166+178
[2]   一种改进的特征权重算法 [J].
张瑜 ;
张德贤 .
计算机工程, 2011, 37 (05) :210-212
[3]   文本分类中特征权重因子的作用研究 [J].
张爱华 ;
靖红芳 ;
王斌 ;
徐燕 .
中文信息学报, 2010, (03) :97-104
[4]   文本分类特征权重改进算法 [J].
台德艺 ;
王俊 .
计算机工程, 2010, 36 (09) :197-199+202
[5]   文本分类算法中词语权重计算方法的改进 [J].
赵小华 ;
马建芬 .
电脑知识与技术, 2009, 5 (36) :10626-10628
[6]   统计频率算法在文本信息过滤系统中的应用 [J].
张帆 ;
张俊丽 .
图书情报工作, 2009, 53 (13) :116-119
[7]   TFIDF算法研究综述 [J].
施聪莺 ;
徐朝军 ;
杨晓江 .
计算机应用, 2009, 29(S1) (S1) :167-170+180
[8]   文本分类中特征权重算法的改进 [J].
沈志斌 ;
白清源 .
南京师范大学学报(工程技术版), 2008, (04) :95-98+149
[9]  
中文文本分类中分词和特征选择方法研究[D]. 李原.吉林大学. 2011
[10]  
基于向量空间模型的中文文本分类技术研究[D]. 柳培林.大庆石油学院. 2006