共 2 条
由Logistic回归识别Web社区的垃圾评论
被引:11
作者:
何海江
凌云
机构:
[1] 不详
[2] 长沙学院计算机中心
[3] 不详
来源:
关键词:
Logistic回归;
向量空间模型;
博客;
垃圾评论;
相关度;
D O I:
暂无
中图分类号:
TP391.1 [文字信息处理];
学科分类号:
摘要:
针对Web社区垃圾信息泛滥的问题,采用基于Logistic回归(LR)的分类器区分合法评论和垃圾评论,并和支持向量机(SVM)的性能对比。提出了相关度向量空间模型cVSM作为评论的文档表示模型,讨论了信息增益IG、互信息MI、χ2统计CHI、文档频率DF等不同特征抽取方法对模型的影响。实验结果表明,LR的训练时间不到SVM的1/10;DF和IG比MI和CHI表现更好;与传统的向量空间模型相比,使用cVSM显著提高垃圾评论识别能力。
引用
收藏
页码:140 / 143
页数:4
相关论文