共 15 条
基于改进TF-IDF算法的文本分类方法研究
被引:23
作者:
贺科达
朱铮涛
程昱
机构:
[1] 广东工业大学信息工程学院
来源:
关键词:
提取;
特征选择;
文本分类;
预处理;
D O I:
暂无
中图分类号:
TP391.1 [文字信息处理];
学科分类号:
摘要:
类别关键词是文本分类首先要解决的关键问题,在研究利用类别关键词及TF-IDF算法对文本进行分类的基础上,提出了一种改进的TF-IDF算法.首先建立类别关键词库,并对其进行扩充及去重,克服了向量空间模型不能很好调节权重的缺点.通过加入文档长度权值修正文档中关键词的权重,有效地解决了原有特征词条类别区分能力不足的问题.采用贝叶斯分类方法,结合实验验证了该算法的有效性,提高了文本分类的准确度.
引用
收藏
页码:49 / 53
页数:5
相关论文