基于语义关联和信息增益的TFIDF改进算法研究

被引:8
作者
许珂
蒙祖强
林啓峰
机构
[1] 广西大学计算机与电子信息学院
关键词
词频反文档频率; 特征提取; 语义关联; 信息增益; 文本分类;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
基于词频反文档频率(term frequency inverse document frequency,TFIDF)的现有文本特征提取算法及其改进算法未能考虑类别内部词语之间的语义关联,如果脱离语义,提取出的特征不能很好地刻画文档的内容。为准确提取特征,在信息熵与信息增益的基础上,加入词语的语义关联因素,实现融合语义信息的特征提取,进而提出语义和信息增益相结合的TFIDF改进算法,该算法弥补了统计方法丢失语义信息的弊端。实验结果表明,该算法有效地提高了文本分类的精准率。
引用
收藏
页码:557 / 560
页数:4
相关论文
共 12 条
[11]  
基于决策树和K最近邻算法的文本分类研究.[D].王煜.天津大学.2006, 05
[12]   中文文本分类中的特征选择算法研究 [J].
胡佳妮 ;
徐蔚然 ;
郭军 ;
邓伟洪 .
光通信研究, 2005, (03) :44-46