由Logistic回归识别Web社区的垃圾评论

被引:11
作者
何海江
凌云
机构
[1] 不详
[2] 长沙学院计算机中心
[3] 不详
关键词
Logistic回归; 向量空间模型; 博客; 垃圾评论; 相关度;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
针对Web社区垃圾信息泛滥的问题,采用基于Logistic回归(LR)的分类器区分合法评论和垃圾评论,并和支持向量机(SVM)的性能对比。提出了相关度向量空间模型cVSM作为评论的文档表示模型,讨论了信息增益IG、互信息MI、χ2统计CHI、文档频率DF等不同特征抽取方法对模型的影响。实验结果表明,LR的训练时间不到SVM的1/10;DF和IG比MI和CHI表现更好;与传统的向量空间模型相比,使用cVSM显著提高垃圾评论识别能力。
引用
收藏
页码:140 / 143
页数:4
相关论文
共 2 条
[1]   垃圾邮件分类的偏依赖特性研究 [J].
刘震 ;
谭良 ;
周明天 .
电子学报, 2007, (10) :1870-1874
[2]   中文文本分类中特征抽取方法的比较研究 [J].
代六玲 ;
黄河燕 ;
陈肇雄 .
中文信息学报, 2004, (01) :26-32