共 6 条
一种基于最少出现文档频的文本特征提取方法
被引:6
作者:
苏丹
周明全
王学松
任玉芝
机构:
[1] 不详
[2] 北京师范大学信息科学与技术学院
[3] 不详
来源:
关键词:
特征提取;
特征分布;
类间集中度;
类内离散度;
文档-最少出现文档频率(TF-LDF);
D O I:
暂无
中图分类号:
TP391.1 [文字信息处理];
学科分类号:
摘要:
传统特征提取改进方法在特征分布信息的量化方面存在不足,很大程度上影响了其分类效能。针对这一问题,提出一种基于最少出现文档频的特征提取改进方法,即TF-LDF算法。该算法用最少出现文档频来量化特征类间集中度与类内离散度,能够更加准确地反映特征分布情况。通过实验结果比较,可以证明TF-LDF算法分类效果更佳。
引用
收藏
页码:164 / 166+178
+178
页数:4
相关论文