共 5 条
文本分类中特征权重算法的改进
被引:14
作者:
沈志斌
白清源
机构:
[1] 福州大学数学与计算机科学学院
来源:
关键词:
文本分类;
特征权重;
TFIDF;
类别区分;
BOR-TFIDF;
D O I:
暂无
中图分类号:
TP391.1 [文字信息处理];
学科分类号:
摘要:
TFIDF是文档特征权重表示常用方法.该方法简单易行,但忽略了特征词在各个类别中的分布情况,不能真正地反映特征词对区分每个类的贡献.针对这个不足,本文提出了BOR-TFIDF,来重新调整每个特征词对各个类别的区分度,即修正各个特征词的权重,并用分类器来验证其有效性.该方法优于原来的TFIDF算法,实验表明了改进的策略是可行的.
引用
收藏
页码:95 / 98+149
+149
页数:5
相关论文