虚拟社区不良信息过滤技术研究

被引:0
作者
张磊
机构
[1] 昆明理工大学
关键词
网络虚拟社区; IF; BBS; 贝叶斯; 支持向量机(SVM);
D O I
暂无
年度学位
2011
学位类型
硕士
导师
摘要
随着我国计算机技术的飞速发展,网络虚拟社区大量出现,网络舆论的活跃性也达到了前所未有的程度。但是,大量的网络不良信息、反动言论也在虚拟社区中出现,给社会发展造成了精神污染,给我国的国家安全带来严重的危害和挑战。对网络虚拟社区不良信息进行过滤,净化网络环境刻不容缓。 针对网络虚拟社区中不良信息的特点,本文研究了虚拟社区中不良信息的用词特征、结构特征、特征词提取以及过滤系统建模等问题。分别采用贝叶斯方法和支持向量机方法构建了虚拟社区不良信息过滤模型进行了实验对比,并设计实现了虚拟社区不良信息过滤原型系统,取得了比较好的效果。具体说来,本文的主要内容如下: 首先,针对网络虚拟社区文本特点,对虚拟社区文本进行预处理,采用正则表达式对非常规词或符号进行处理,获得待过滤的文本。根据虚拟社区文本特点,建立了停用词表,采用文档频率(DF)法的特征选择算法,选择了235个词作为虚拟社区文本过滤特征项。 其次,标记了虚拟社区不良文本训练和测试语料,分析了典型的文本分类学习算法的优缺点,采用贝叶斯和支持向量机学习算法,训练构建了虚拟社区不良文本过滤模型,并进行过滤实验。结果表明,基于支持向量机的虚拟社区不良文本过滤模型比基于贝叶斯方法的虚拟社区不良文本过滤模型具有更快的速度、更高的正确率和召回率。文本过滤正确率、召回率和F测度值分别为92%,98.7%和95.2%。 最后,利用训练获得的虚拟社区不良文本过滤模型,采用J2EE架构,设计实现了虚拟社区不良文本过滤原型系统。
引用
收藏
页数:61
共 24 条
[1]
数据挖掘原理.[M].(英) 汉德 (Hand;D.) ; 著.机械工业出版社.2003,
[2]
Information retrieval on the Web [J].
Kobayashi, M ;
Takeda, K .
ACM COMPUTING SURVEYS, 2000, 32 (02) :144-173
[3]
A feature-based approach to recommending selections based on past preferences [J].
Raskutti, B ;
Beitz, A ;
Ward, B .
USER MODELING AND USER-ADAPTED INTERACTION, 1997, 7 (03) :179-218
[4]
INTELLIGENT INFORMATION-SHARING SYSTEMS [J].
MALONE, TW ;
GRANT, KR ;
TURBAK, FA ;
BROBST, SA ;
COHEN, MD .
COMMUNICATIONS OF THE ACM, 1987, 30 (05) :390-402
[5]
四种贝叶斯分类器及其比较 [J].
邓甦 ;
付长贺 .
沈阳师范大学学报(自然科学版), 2008, (01) :31-33
[6]
[7]
网络信息过滤系统研究综述 [J].
曲德祥 ;
唐新亭 ;
徐连诚 ;
石磊 .
山东师范大学学报(自然科学版), 2007, (02) :23-26
[8]
文本分类中基于基尼指数的特征选择算法研究 [J].
尚文倩 ;
黄厚宽 ;
刘玉玲 ;
林永民 ;
瞿有利 ;
董红斌 .
计算机研究与发展 , 2006, (10) :1688-1694
[9]
基于向量空间模型的过滤不良文本方法 [J].
李强 ;
李建华 .
计算机工程, 2006, (10) :4-5+8
[10]
一种高性能的两类中文文本分类方法 [J].
樊兴华 ;
孙茂松 .
计算机学报, 2006, (01) :124-131