基于向量空间模型的过滤不良文本方法

被引:15
作者
李强
李建华
机构
[1] 上海交通大学信息安全工程学院
关键词
文本表示; 文本归一化; 向量空间模型; 支持向量机; NaiveBayes模型;
D O I
暂无
中图分类号
TP393.08 [];
学科分类号
0839 ; 1402 ;
摘要
就向量空间模型文本表示方法以及归一化技术对不良文本过滤性能的影响进行了研究,并基于平衡样本集和不平衡样本集分别进行了试验。试验和结果分析表明,Na?veBayes方法由于采用概率模型进行文本表示,在不平衡样本集上显示了较差的准确度,而基于向量空间模型进行文本表示的方法,如中心向量法(VSM)、支持向量机(SVM)等在平衡或非平衡样本上取得了较好的准确度,并用于过滤不良文本的文本内容安全监管中。
引用
收藏
页码:4 / 5+8 +8
页数:3
相关论文
共 3 条
[1]   基于向量空间模型的文本自动分类系统的研究与实现 [J].
庞剑锋 ;
卜东波 ;
白硕 .
计算机应用研究, 2001, (09) :23-26
[2]   An Evaluation of Statistical Approaches to Text Categorization [J].
Yiming Yang .
Information Retrieval, 1999, 1 (1-2) :69-90
[3]   A tutorial on Support Vector Machines for pattern recognition [J].
Burges, CJC .
DATA MINING AND KNOWLEDGE DISCOVERY, 1998, 2 (02) :121-167