基于改进TF-IDF算法的文本分类方法研究

被引:23
作者
贺科达
朱铮涛
程昱
机构
[1] 广东工业大学信息工程学院
关键词
提取; 特征选择; 文本分类; 预处理;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
类别关键词是文本分类首先要解决的关键问题,在研究利用类别关键词及TF-IDF算法对文本进行分类的基础上,提出了一种改进的TF-IDF算法.首先建立类别关键词库,并对其进行扩充及去重,克服了向量空间模型不能很好调节权重的缺点.通过加入文档长度权值修正文档中关键词的权重,有效地解决了原有特征词条类别区分能力不足的问题.采用贝叶斯分类方法,结合实验验证了该算法的有效性,提高了文本分类的准确度.
引用
收藏
页码:49 / 53
页数:5
相关论文
共 15 条
[1]   基于贝叶斯分类法的股票选择模型的研究附视频 [J].
骆桦 ;
张喜梅 .
浙江理工大学学报, 2015, (05) :418-422
[2]   一种基于类平均相似度的文本分类算法 [J].
谭学清 ;
周通 ;
罗琳 .
现代图书情报技术 , 2014, (09) :66-73
[3]   聚类分析研究的挑战性问题 [J].
蒋盛益 ;
王连喜 .
广东工业大学学报, 2014, 31 (03) :32-38
[4]   采用SVM方法的文本情感极性分类研究 [J].
陈培文 ;
傅秀芬 .
广东工业大学学报, 2014, 31 (03) :95-101
[5]   ConfDTree: A Statistical Method for Improving Decision Trees [J].
Gilad Katz ;
Asaf Shabtai ;
Lior Rokach ;
Nir Ofek .
JournalofComputerScience&Technology, 2014, 29 (03) :392-407
[6]   基于改进TF-IDF算法的情报关键词提取方法 [J].
张瑾 .
情报杂志, 2014, 33 (04) :153-155
[7]   文本分类中TF-IDF方法的改进研究 [J].
覃世安 ;
李法运 .
现代图书情报技术, 2013, (10) :27-30
[8]   不可靠语料库的提纯及词权度量指标IDF的改进 [J].
徐山 ;
杜卫锋 .
微型机与应用, 2013, 32 (04) :61-63+66
[9]   文本分类中特征权重算法的改进 [J].
沈志斌 ;
白清源 .
南京师范大学学报(工程技术版), 2008, (04) :95-98+149
[10]   基于VSM的文本相似度计算的研究 [J].
郭庆琳 ;
李艳梅 ;
唐琦 .
计算机应用研究, 2008, (11) :3256-3258