文本分类中基于方差的改进特征提取算法

被引:12
作者
吕佳
机构
[1] 重庆师范大学数学与计算机科学学院运筹学与系统工程重庆市市级重点实验室
关键词
文本分类; 特征提取; 改进TFIDF; 权重; 方差;
D O I
10.16208/j.issn1000-7024.2007.24.043
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
特征提取算法TFIDF是文本分类中常用的衡量特征权重的算法,但该算法没有考虑特征词在类间和类内的分布情况,导致算法无法反映特征词在分布比例中量上的差异。为此,引入方差来描述特征词在类间和类内的分布情况,并利用方差来修正TFIDF权重。仿真实验结果表明,同传统TFIDF算法相比,改进TFIDF算法能得到更好的分类结果。
引用
收藏
页码:6039 / 6041
页数:3
相关论文
共 7 条
[1]
基于机器学习的文本分类技术研究进展 [J].
苏金树 ;
张博锋 ;
徐昕 .
软件学报, 2006, (09) :1848-1859
[2]
自动文本分类中权值公式的改进 [J].
寇莎莎 ;
魏振军 .
计算机工程与设计, 2005, (06) :1616-1618
[3]
使用KNN算法的文本分类 [J].
张宁 ;
贾自艳 ;
史忠植 .
计算机工程, 2005, (08) :171-172+185
[4]
文本分类中结合评估函数的TEF-WA权值调整技术 [J].
唐焕玲 ;
孙建涛 ;
陆玉昌 .
计算机研究与发展, 2005, (01) :47-53
[5]
一种实用高效的文本分类算法 [J].
王建会 ;
王洪伟 ;
申展 ;
胡运发 .
计算机研究与发展, 2005, (01) :85-93
[6]
中文文本分类中特征抽取方法的比较研究 [J].
代六玲 ;
黄河燕 ;
陈肇雄 .
中文信息学报, 2004, (01) :26-32
[7]
文档中词语权重计算方法的改进 [J].
鲁松 ;
李晓黎 ;
白硕 ;
王实 .
中文信息学报, 2000, (06) :8-13+20