基于LDA模型的博客垃圾评论发现

被引：83

作者：

刁宇峰

杨亮

林鸿飞

机构：

[1] 大连理工大学信息检索研究室

来源：

中文信息学报 | 2011年 / 25卷 / 01期

基金：

高等学校博士学科点专项科研基金; 教育部留学回国人员科研启动基金;

关键词：

Blog; 博文; LDA; 主题; 垃圾评论;

D O I：

暂无

中图分类号：

TP393.092 [];

学科分类号：

摘要：

Blog(博客)作为一种新兴的网络媒体,在很大程度上增强了互联网的开放性,Blog已经成为互联网上的主要信息源之一,这也使得Blog空间中的垃圾评论成倍增长,因此如何识别垃圾评论成为面临的重要问题。该文首先借鉴处理垃圾邮件的方法,针对Blog本身的特点,使用规则初步过滤垃圾评论,然后对剩余评论,利用Latent Dirichlet Allocation(LDA)这种能够提取文本隐含主题的产生式模型,对博客中的博文进行主题提取,并结合主题信息进行判断,从而识别Blog空间的垃圾评论。通过实验验证,该方法可以发现大多数垃圾评论,实验取得了较好的结果,使Blog信息更加准确、有效的为用户使用。

引用

页码：41 / 47

页数：7

共 5 条

[1]

第三届全国信息检索与内容安全学术会议(NCIRCS’2007).[A]..第三届全国信息检索与内容安全学术会议.2007,

[2]

基于内容的垃圾邮件过滤研究 [D].

潘文锋 .

中国科学院研究生院（计算技术研究所）,

2004

[3]

A reference collection for web spam.[J].Carlos Castillo;Debora Donato;Luca Becchetti;Paolo Boldi;Stefano Leonardi;Massimo Santini;Sebastiano Vigna.ACM SIGIR Forum.2006, 2

[4]

一种基于密度的自适应最优LDA模型选择方法 [J].

曹娟 ;

张勇东 ;

李锦涛 ;

唐胜 .

计算机学报, 2008, (10) :1780-1787

[5]

情感词汇本体的构造.[J].徐琳宏;林鸿飞;潘宇;任惠;陈建美;.情报学报.2008, 02

← 1 →