由向量空间相关模型识别博客文章的垃圾评论

被引:3
作者
何海江
凌云
机构
[1] 长沙大学计算机中心
关键词
向量空间模型; 博客; 垃圾评论; 相关度;
D O I
暂无
中图分类号
TP391.1 [文字信息处理]; TP18 [人工智能理论];
学科分类号
081203 ; 0835 ; 081104 ; 0812 ; 1405 ;
摘要
博客作者往往允许读者在文章后发表评论,许多评论充斥着形形色色的垃圾信息,破坏了博客社区的和谐.在向量空间的基础上构造了一个相关模型,将博客的文章和评论分别分词后,根据模型计算评论和文章的相关度,来判断是否为垃圾评论.该模型不需要训练样本,在一个中文博客测试集上,召回率和准确率分别达到82%和91%.
引用
收藏
页码:63 / 66
页数:4
相关论文
共 6 条
[1]   文本挖掘技术研究进展 [J].
袁军鹏 ;
朱东华 ;
李毅 ;
李连宏 ;
黄进 .
计算机应用研究, 2006, (02) :1-4
[2]   基于遗传算法、贝叶斯学习的网段反垃圾邮件系统 [J].
赖均 ;
黄迪明 ;
胡德昆 .
计算机工程, 2006, (02) :189-190+193
[3]   基于生物序列模式提取技术的邮件过滤算法 [J].
陈蔚然 ;
董守斌 .
清华大学学报(自然科学版), 2005, (S1) :1734-1737
[4]   基于向量空间模型的文本过滤系统 [J].
黄萱菁 ;
夏迎炬 ;
吴立德 .
软件学报, 2003, (03) :435-442
[5]  
中文自然语言处理开放平台 .2 http://www.nlp.org.cn . 2007
[6]  
Detecting Spam Blogs:A MachineLearning Approach .2 Pranam Kolari et al. Proceed-ings of the 21st National Conference on Artificial Intelligence(AAAI 2006) . 2006