不可靠语料库的提纯及词权度量指标IDF的改进

被引:1
作者
徐山 [1 ]
杜卫锋 [2 ]
机构
[1] 南京城市职业学院教务处
[2] 嘉兴学院数理与信息工程学院
关键词
短信过滤; 不可靠语料库; 向量空间模型; IDF; 聚类;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
不良短信的泛滥严重影响了社会风气,干扰了人们正常的生活秩序,研发不良短信过滤技术具有相当高的实用价值。研究了文本分类中的两个问题,可应用于不良短信过滤。其一是应用聚类方法进行不可靠语料集的提纯,实验表明,该方法对不可靠数据的提纯效果比较明显;其二是关于IDF词权度量指标的一点改进。
引用
收藏
页码:61 / 63+66 +66
页数:4
相关论文
共 3 条
[1]   基于文本分类TFIDF方法的改进与应用 [J].
张玉芳 ;
彭时名 ;
吕佳 .
计算机工程, 2006, (19) :76-78
[2]  
模式识别原理与应用.[M].李弼程; 邵美珍; 黄洁; 主编.西安电子科技大学出版社.2008,
[3]  
交叉覆盖算法下文本分类的研究.[D].李家兵.安徽大学.2007, 06