文本分类中基于改进的词语权重算法的研究

被引：1

作者：

侯艳钗

沈西挺

机构：

[1] 河北工业大学计算机科学与软件学院

来源：

微计算机信息 | 2011年 / 27卷 / 06期

关键词：

中文文本; 特征项; x2统计量;

D O I：

暂无

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

摘要：

文本分类领域中,TF-IDF特征权重是一种常用的分类算法。本文介绍了TF-IDF特征权重算法,对于能够表征文本特征的文本特征词,常常按某一方法赋予相应的权重,表示它们对于区分文本类别的重要程度。但是在该算法中将训练集的文档看成一个整体来考虑,不能表示特征项与类别之间的关联特性。针对该弊端本文引进了x2统计量函数计算权重。实验结果表明改进的TF-IDF权重算法是可行的,同时也比较好地提高了分类器的性能。

引用

页码：211 / 213

页数：3

共 6 条

[1]

中文网页分类特征提取方法研究.[D].朱丽娜.中国石油大学.2009, 03

[2] ON RELEVANCE, PROBABILISTIC INDEXING AND INFORMATION RETRIEVAL [J].