基于Web内容挖掘的网页分类与过滤研究与应用

被引:0
作者
彭希鸿
机构
[1] 中南大学
关键词
数据挖掘; Web挖掘; 分词; 分类; 网络机器人;
D O I
暂无
年度学位
2003
学位类型
硕士
导师
摘要
万维网(WWW)目前是一个巨大的、分布广泛的全球信息服务中心,它涉及到新闻、财经、广告、商务、文化、教育等信息服务。然而面对复杂而庞大的万维网,多数用户感到力不从心。如何有效地帮助用户从WWW上发现他们感兴趣的资源,已经成为一个迫切需要解决的课题。 根据中南大学校园信息港建设目标,我们设计和开发了CSUIHWD(中南大学信息港Web挖掘)系统。通过CSUIHWD对那些感兴趣的网页进行采集、过滤处理后,自动按主题归类,在中南大学信息港网站发布。CSUIHWD补充了校内网站的资源,加大了对Internet上资料的利用,并为建立智能搜索引擎打下了很好的基础。 论文首先介绍了数据挖掘和Web挖掘的一些基本概念、方法和技术,阐述了什么是数据和Web挖掘,为什么要进行挖掘。并介绍了CSUIHWD基于Web内容挖掘的网页分类与过滤技术和系统原型。然后着重对Web内容分类挖掘的一些关键技术进行了阐述,这些关键技术包括:Web网页数据的采集、中文的分词和分类器的建立它们是Web内容分类挖掘的核心。 CSUIHWD由CsuRobot执行网页数据的采集,CsuRobot是一个类似于网络机器人的自动网页采集程序,它采用了多线程技术,可以同时执行多个采集任务;设计了反序机械分词词典,提高了逆向最大机械分词算法的分词速度,使用机械分词和统计分词相结合的方法,部分解决了未登录词问题;针对朴素贝叶斯分类算法没有考虑Web的半结构化,对所有的词“一视同仁”,本文考虑了那些对文本分类有特殊贡献的词,增加了它们的权重,对算法进行了改进,试验结果表明,这种改进是有益的。 最后对本文的工作进行了总结,并确定了以后进一步研究方向。
引用
收藏
页数:68
共 12 条
[1]
歧义切分与专有名词识别软件 [J].
刘开瑛 .
语言文字应用, 2001, (03) :9-15
[2]
基于Ngram信息的中文文档分类研究 [J].
周水庚 ;
关佶红 ;
俞红奇 ;
胡运发 .
中文信息学报, 2001, (01) :34-39
[3]
Web文本挖掘技术研究 [J].
王继成 ;
潘金贵 ;
张福炎 .
计算机研究与发展, 2000, (05) :513-520
[4]
基于高阶N-gram的单词聚类和规则获取算法研究 [J].
关毅 ;
张凯 ;
付国宏 .
计算机应用研究, 1999, (05) :15-17
[5]
基于机器学习的无需人工编制词典的切词系统 [J].
黄萱菁 ;
吴立德 ;
王文欣 ;
叶丹瑾 .
模式识别与人工智能, 1996, 9 (04) :297-303
[6]
多语料库作法之中文姓名辨识 [J].
张俊盛 ;
陈舜德 ;
郑萦 ;
刘显仲 ;
柯淑津 .
中文信息学报, 1992, (03) :7-15
[7]
中文姓名的自动辨识 [J].
孙茂松 ;
黄昌宁 ;
高海燕 ;
方捷 .
中文信息学报, 1995, (02)
[8]
机器学习.[M].(美)TomM.Mitchell著;曾华军;张银奎等译;.机械工业出版社.2003,
[9]
网络机器人Java编程指南.[M].(美)JeffHeaton著;童兆丰等译;.电子工业出版社.2002,
[10]
统一软件开发过程.[M].(美)IvarJacobson等著;周伯生等译;.机械工业出版社.2002,