文本分类中基于改进的词语权重算法的研究

被引:1
作者
侯艳钗
沈西挺
机构
[1] 河北工业大学计算机科学与软件学院
关键词
中文文本; 特征项; x2统计量;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
文本分类领域中,TF-IDF特征权重是一种常用的分类算法。本文介绍了TF-IDF特征权重算法,对于能够表征文本特征的文本特征词,常常按某一方法赋予相应的权重,表示它们对于区分文本类别的重要程度。但是在该算法中将训练集的文档看成一个整体来考虑,不能表示特征项与类别之间的关联特性。针对该弊端本文引进了x2统计量函数计算权重。实验结果表明改进的TF-IDF权重算法是可行的,同时也比较好地提高了分类器的性能。
引用
收藏
页码:211 / 213
页数:3
相关论文
共 6 条
[1]  
中文网页分类特征提取方法研究.[D].朱丽娜.中国石油大学.2009, 03
[2]   ON RELEVANCE, PROBABILISTIC INDEXING AND INFORMATION RETRIEVAL [J].
MARON, ME ;
KUHNS, JL .
JOURNAL OF THE ACM, 1960, 7 (03) :216-244
[3]   一种改进的朴素贝叶斯文本分类算法 [J].
刘沛骞 ;
冯晶晶 .
微计算机信息, 2010, 26 (27) :187-188
[4]   文本分类中结合评估函数的TEF-WA权值调整技术 [J].
唐焕玲 ;
孙建涛 ;
陆玉昌 .
计算机研究与发展, 2005, (01) :47-53
[5]   文档中词语权重计算方法的改进 [J].
鲁松 ;
李晓黎 ;
白硕 ;
王实 .
中文信息学报, 2000, (06) :8-13+20
[6]   自动分类研究进展 [J].
肖明 ;
沈英 .
现代图书情报技术, 2000, (05) :25-28