一种基于最少出现文档频的文本特征提取方法

被引:6
作者
苏丹
周明全
王学松
任玉芝
机构
[1] 不详
[2] 北京师范大学信息科学与技术学院
[3] 不详
关键词
特征提取; 特征分布; 类间集中度; 类内离散度; 文档-最少出现文档频率(TF-LDF);
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
传统特征提取改进方法在特征分布信息的量化方面存在不足,很大程度上影响了其分类效能。针对这一问题,提出一种基于最少出现文档频的特征提取改进方法,即TF-LDF算法。该算法用最少出现文档频来量化特征类间集中度与类内离散度,能够更加准确地反映特征分布情况。通过实验结果比较,可以证明TF-LDF算法分类效果更佳。
引用
收藏
页码:164 / 166+178 +178
页数:4
相关论文
共 6 条
[1]   一种快速KNN文本分类算法 [J].
孙荣宗 .
电脑知识与技术, 2010, 6 (01) :174-175+178
[2]   应用特征项分布信息的信息增益改进方法研究 [J].
杨玉珍 ;
刘培玉 ;
朱振方 ;
邱烨 .
山东大学学报(理学版), 2009, 44 (11) :48-51
[3]   基于语义的关键词提取算法 [J].
方俊 ;
郭雷 ;
王晓东 .
计算机科学, 2008, (06) :148-151
[4]   基于互信息最大化的特征选择算法及应用 [J].
唐亮 ;
段建国 ;
许洪波 ;
梁玲 .
计算机工程与应用, 2008, (13) :130-133
[5]   文本分类中词语权重计算方法的改进与应用 [J].
熊忠阳 ;
黎刚 ;
陈小莉 ;
陈伟 .
计算机工程与应用, 2008, (05) :187-189
[6]   基于向量空间模型的过滤不良文本方法 [J].
李强 ;
李建华 .
计算机工程, 2006, (10) :4-5+8