基于LDA模型的博客垃圾评论发现

被引:83
作者
刁宇峰
杨亮
林鸿飞
机构
[1] 大连理工大学信息检索研究室
基金
高等学校博士学科点专项科研基金; 教育部留学回国人员科研启动基金;
关键词
Blog; 博文; LDA; 主题; 垃圾评论;
D O I
暂无
中图分类号
TP393.092 [];
学科分类号
摘要
Blog(博客)作为一种新兴的网络媒体,在很大程度上增强了互联网的开放性,Blog已经成为互联网上的主要信息源之一,这也使得Blog空间中的垃圾评论成倍增长,因此如何识别垃圾评论成为面临的重要问题。该文首先借鉴处理垃圾邮件的方法,针对Blog本身的特点,使用规则初步过滤垃圾评论,然后对剩余评论,利用Latent Dirichlet Allocation(LDA)这种能够提取文本隐含主题的产生式模型,对博客中的博文进行主题提取,并结合主题信息进行判断,从而识别Blog空间的垃圾评论。通过实验验证,该方法可以发现大多数垃圾评论,实验取得了较好的结果,使Blog信息更加准确、有效的为用户使用。
引用
收藏
页码:41 / 47
页数:7
相关论文
共 5 条
[1]
第三届全国信息检索与内容安全学术会议(NCIRCS’2007).[A]..第三届全国信息检索与内容安全学术会议.2007,
[2]
基于内容的垃圾邮件过滤研究 [D]. 
潘文锋 .
中国科学院研究生院(计算技术研究所),
2004
[3]
A reference collection for web spam.[J].Carlos Castillo;Debora Donato;Luca Becchetti;Paolo Boldi;Stefano Leonardi;Massimo Santini;Sebastiano Vigna.ACM SIGIR Forum.2006, 2
[4]
一种基于密度的自适应最优LDA模型选择方法 [J].
曹娟 ;
张勇东 ;
李锦涛 ;
唐胜 .
计算机学报, 2008, (10) :1780-1787
[5]
情感词汇本体的构造.[J].徐琳宏;林鸿飞;潘宇;任惠;陈建美;.情报学报.2008, 02