基于语义关联和信息增益的TFIDF改进算法研究

被引:8
作者
许珂
蒙祖强
林啓峰
机构
[1] 广西大学计算机与电子信息学院
关键词
词频反文档频率; 特征提取; 语义关联; 信息增益; 文本分类;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
基于词频反文档频率(term frequency inverse document frequency,TFIDF)的现有文本特征提取算法及其改进算法未能考虑类别内部词语之间的语义关联,如果脱离语义,提取出的特征不能很好地刻画文档的内容。为准确提取特征,在信息熵与信息增益的基础上,加入词语的语义关联因素,实现融合语义信息的特征提取,进而提出语义和信息增益相结合的TFIDF改进算法,该算法弥补了统计方法丢失语义信息的弊端。实验结果表明,该算法有效地提高了文本分类的精准率。
引用
收藏
页码:557 / 560
页数:4
相关论文
共 12 条
[1]   一种改进的特征权重算法 [J].
张瑜 ;
张德贤 .
计算机工程, 2011, 37 (05) :210-212
[2]   基于句法和语义信息的问句特征提取方法 [J].
许莉 ;
王大玲 ;
夏秀峰 .
计算机工程, 2010, 36 (21) :65-66+70
[3]   含有语义特征的网页新闻自动抽取 [J].
施洋 ;
张奇 ;
黄萱菁 .
计算机工程, 2010, 36 (07) :173-175+178
[4]   基于语义的信息检索模型 [J].
陈锐 ;
张蕾 ;
胡艳华 .
计算机工程与应用 , 2009, (26) :141-143
[5]   基于语义的关键词提取算法 [J].
方俊 ;
郭雷 ;
王晓东 .
计算机科学, 2008, (06) :148-151
[6]   基于网页上下文的Deep Web数据库分类 [J].
马军 ;
宋玲 ;
韩晓晖 ;
闫泼 .
软件学报, 2008, (02) :267-274
[7]   基于信息增益的特征词权重调整算法研究 [J].
张玉芳 ;
陈小莉 ;
熊忠阳 .
计算机工程与应用 , 2007, (35) :159-161
[8]   基于信息熵的改进TFIDF特征选择算法 [J].
周炎涛 ;
唐剑波 ;
王家琴 .
计算机工程与应用, 2007, (35) :156-158+171
[9]   基于新的关键词提取方法的快速文本分类系统 [J].
罗杰 ;
陈力 ;
夏德麟 ;
王凯 .
计算机应用研究, 2006, (04) :32-34
[10]   一种结合反馈方法的中文文本分类算法 [J].
陈瑞芬 .
计算机应用, 2005, (12) :146-148