基于TFIDF文本特征加权方法的改进研究

被引:37
作者
张保富
施化吉
马素琴
机构
[1] 江苏大学计算机科学与通信工程学院
关键词
TFIDF; 文本分类; 特征加权; 向量空间模型;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
针对传统TFIDF方法将文档集作为整体来处理,并没有考虑到特征项在类间和类内的分布情况的不足,提出一种结合信息熵的TFIDF改进方法。该方法采用结合特征项在类间和类内信息分布熵来调整TFIDF特征项的权重计算,避免了那些对分类没有贡献的特征项被赋予较大权值的缺陷,能更有效计算文本特征项的权重。实验结果表明该方法提高了文本分类的精确度和召回率,是一种比较有效的文本特征加权方法。
引用
收藏
页码:17 / 20
页数:4
相关论文
共 12 条
[1]   A survey on ontology mapping [J].
Choi, Namyoun ;
Song, Il-Yeol ;
Han, Hyoil .
SIGMOD RECORD, 2006, 35 (03) :34-41
[2]  
语义网简明教程.[M].宋炜;张铭[著];.高等教育出版社.2004,
[3]  
层次分析法引论.[M].王莲芬;许树柏编著;.中国人民大学出版社.1990,
[4]  
异构本体映射关键技术研究.[D].王宗江.上海交通大学.2009, 02
[5]  
Ontology Mapping-An Integrated Approach..Ehrig M; Sure Y;.Proceedings of the 1st European Semantic Web Symposium.2004,
[6]   基于AHP的多策略映射与集成方法 [J].
徐德智 ;
李鹏 ;
尹艳 .
计算机工程, 2009, 35 (12) :161-163
[7]   基于区分类别能力的高性能特征选择方法 [J].
徐燕 ;
李锦涛 ;
王斌 ;
孙春明 .
软件学报, 2008, (01) :82-89
[8]   语义Web中的本体自动映射 [J].
唐杰 ;
梁邦勇 ;
李涓子 ;
王克宏 .
计算机学报, 2006, (11) :1956-1976
[9]   使用最大熵模型进行中文文本分类 [J].
李荣陆 ;
王建会 ;
陈晓云 ;
陶晓鹏 ;
胡运发 .
计算机研究与发展, 2005, (01) :94-101
[10]   用Naive Bayes方法协调分类Web网页 [J].
范焱 ;
郑诚 ;
王清毅 ;
蔡庆生 ;
刘洁 .
软件学报, 2001, (09) :1386-1392