基于BBS文本信息的中文自动分词系统的研究

被引:0
作者
何淑芳
机构
[1] 中国海洋大学
关键词
BBS; 文本挖掘; 分词词典; 自动分词;
D O I
暂无
年度学位
2006
学位类型
硕士
导师
摘要
随着Internet技术的发展,各种网络应用服务越来越多,BBS(Bullet in Boards System )的开设为广大网络用户开辟了自由发表言论的空间,但一些不健康的、反动的言论也给我们的社会和国家带来了负面影响。如何准确的从大量用户言论中有效的清除不文明及反动言论成为当前网络管理人员越来越关心的问题。传统的BBS管理方法随着所拥有信息量的急剧增大,不但显得滞后且效率低下,已很难适应时代的发展。数据挖掘正是为了解决传统分析方法的不足,针对大规模数据的分析处理而出现的。因此,如何应用数据挖掘技术来有效、快速地实现BBS的安全管理工作就成为各网站越来越关注的热点。 目前针对BBS文档的鉴别与过滤还不成熟。由于BBS的特殊性,用于普通Web文档和电子邮件的鉴别技术在用于鉴别BBS文档时效果并不理想。研究对BBS文本内容进行数据挖掘,发现并自动删除不健康及反动言论,对网络管理有着非常重要的现实意义。在处理大量文档时,需要从大量文档数据中分析和提取有用信息,需要相关的工具完成不同文档的比较,以及文档重要性和相关性的排列,或找出多文档的模式或趋势。因此,文本挖掘就成为数据挖掘中一个日益流行而重要的研究课题。 文本挖掘即文本数据库中的知识发现,它是数据挖掘的一个分支。文本挖掘作为从浩瀚的文本数据中发现潜在的有价值知识的一种有效技术,已经成为近年来的研究热点。基于BBS的文本挖掘就是从BBS的内容或其描述中提取所需信息的过程,它在BBS的管理中扮演着越来越重要的角色。 对中文文本进行分析的一个前提条件是对中文文本进行分词处理,中文分词是中文信息处理领域中的基础课题,也是一个难点问题。由于中文文本是按句连写的,词间无间隙,按句连写转换成按词连写,词的正确切分是进行中文文本处理的必要条件,它是一切工作的基础。本文的主要工作就是设计和实现一种快速分词算法,将BBS用户提交给服务器准备发送的内容截获并保存在文本文件中,并对这些文本文件进行分词处理,为下一步的文本分类及实现文本挖掘的要求和BBS的安全管理打下基础。 本文采集登录BBS站点的每一用户基本信息( IP地址、用户名、信用等级
引用
收藏
页数:61
共 17 条
[1]
网络传播概论.[M].张海鹰;滕谦编著;.复旦大学出版社.2001,
[2]
中文文本分类中特征抽取方法的比较研究 [J].
代六玲 ;
黄河燕 ;
陈肇雄 .
中文信息学报, 2004, (01) :26-32
[3]
基于中文文本分类的分词方法研究 [J].
湛燕 ;
陈昊 ;
袁方 ;
王熙照 .
计算机工程与应用, 2003, (23) :87-88+91
[4]
国内中文分词技术研究新进展 [J].
冯书晓 ;
徐新 ;
杨春梅 .
情报杂志, 2002, (11) :29-30
[5]
基于BBS文本信息的数据挖掘 [J].
吴庆涛 ;
普杰信 ;
崔林 .
洛阳工学院学报, 2002, (02) :55-58
[6]
文本数据的数据挖掘算法 [J].
陈玉泉 ;
朱锡钧 ;
陆汝占 .
上海交通大学学报, 2000, (07) :936-938
[7]
一种改进的快速分词算法 [J].
陈桂林 ;
王永成 ;
韩客松 ;
王刚 .
计算机研究与发展, 2000, (04) :418-424
[8]
汉语自动分词方法 [J].
殷建平 .
计算机工程与科学, 1998, (03)
[9]
汉语自动分词研究的现状与新思维 [J].
尹锋 .
现代图书情报技术, 1998, (04)
[10]
基于神经网络的汉语自动分词系统的设计与分析 [J].
尹锋 .
情报学报, 1998, (01)