文本分类中TF-IDF方法的改进研究

被引:31
作者
覃世安
李法运
机构
[1] 福州大学公共管理学院
关键词
概率; TF-IDF; 网页; 文本分类;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
针对TF-IDF在待分类文本类的数量分布不均时提取特征值效果差的问题,提出使用特征值在类间出现的概率比代替特征值在类间出现的次数比以改进TF-IDF算法。实验证明利用改进后的TF-IDF方法提取网页文本特征值,并配合简单累加求和的分类器,使得网页文本分类的准确率有明显提高,且分类速度加快。
引用
收藏
页码:27 / 30
页数:4
相关论文
共 8 条
[1]   基于TFIDF文本特征加权方法的改进研究 [J].
张保富 ;
施化吉 ;
马素琴 .
计算机应用与软件, 2011, 28 (02) :17-20
[2]   基于文本分类TFIDF方法的改进与应用 [J].
张玉芳 ;
彭时名 ;
吕佳 .
计算机工程, 2006, (19) :76-78
[3]   基于机器学习的文本分类技术研究进展 [J].
苏金树 ;
张博锋 ;
徐昕 .
软件学报, 2006, (09) :1848-1859
[4]   基于词频差异的特征选取及改进的TF-IDF公式 [J].
罗欣 ;
夏德麟 ;
晏蒲柳 .
计算机应用, 2005, (09) :2031-2033
[5]   文档中词语权重计算方法的改进 [J].
鲁松 ;
李晓黎 ;
白硕 ;
王实 .
中文信息学报, 2000, (06) :8-13+20
[6]  
概率论及数理统计[M]. 高等教育出版社 , 梁之舜等编著, 1988
[7]  
An information-theoretic perspective of tf–idf measures[J] . Akiko Aizawa.Information Processing and Management . 2002 (1)
[8]   Machine learning in automated text categorization [J].
Sebastiani, F .
ACM COMPUTING SURVEYS, 2002, 34 (01) :1-47