统计频率算法在文本信息过滤系统中的应用

被引:4
作者
张帆 [1 ]
张俊丽 [2 ]
机构
[1] 华中师范大学信息管理系
[2] 南京大学信息管理系
关键词
文本过滤; 特征选择; χ2统计量;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
文本信息过滤技术中的一个重要问题是对文档进行特征选择,分析χ2统计量(Chi-square,CHI)的缺陷和不足,针对它对低文档频的特征项不可靠,不能说明词条和类别的相关性等缺点,进行改进,提出一种新的统计频率(Statistical Frequency,SF)算法,并将此算法应用到文本信息过滤系统中。实验结果表明,统计频率算法能够弥补上述不足,表现出良好的过滤效果。
引用
收藏
页码:116 / 119
页数:4
相关论文
共 5 条
[1]   改进KNN算法在垃圾邮件过滤中的应用 [J].
张俊丽 ;
张帆 .
现代图书情报技术, 2007, (04) :75-78
[2]   基于向量空间模型的文本过滤系统 [J].
黄萱菁 ;
夏迎炬 ;
吴立德 .
软件学报, 2003, (03) :435-442
[3]  
文本分类中的关键技术研究[D]. 张俊丽.华中师范大学 2008
[4]  
Performance of KNN and SVM classifiers on full word Arabic articles. Hmeidi Ismail,Hawashin Bilal,El-Qawasmeh Eyas. Advanced Engineering Informatics . 2008
[5]  
北京大学计算语言学研究所主页. . 2008