基于web的中文文本挖掘研究

被引:0
作者
肖红
机构
[1] 大庆石油学院
关键词
数据挖掘; web挖掘; 文本挖掘; 特征提取; 特征表示; 特征匹配; 聚类/分类;
D O I
暂无
年度学位
2004
学位类型
硕士
导师
摘要
信息挖掘是目前人工智能领域和计算机应用领域研究的重要课题之一,基于Web的中文文本信息挖掘是信息挖掘的一个重要方面。互联网现在已成为一个巨大的信息源,如何让互联网信息更好地为人类服务,是我们面临的一个重要课题。一方面是人们对快速、准确获取所需信息的渴望,另一方面是Internet上信息的纷繁芜杂,如何在这两者之间架设一座桥梁是一个巨大的挑战。作为从浩瀚的Web信息资源中发现潜在的有价值知识的一种有效技术,基于Web的信息挖掘正悄然兴起,倍受人们的关注。目前Web挖掘的研究正处于发展阶段,需要在理论、实现方法与技术上进行更多的研究。 论文针对Web环境下中文文本信息挖掘的具体问题,主要研究中文文本信息挖掘的方法与实现技术。讨论了文本分类中的中文词切分、特征提取、特征表示、特征匹配方法,建立了基于神经网络的中文文本分类、聚类算法,在Web中文文本信息挖掘的设计中,对网页信息的表示、结构特点、网页控制符、HTML控制符号处理进行了详细分析与研究,构建了网页信息提取流程,并结合实际问题,给出了Web环境下中文文本信息挖掘的两个具体应用。
引用
收藏
页数:53
共 24 条
[1]
知识发现.[M].史忠植著;.清华大学出版社.2002,
[2]
数据挖掘.[M].朱明编著;.中国科学技术大学出版社.2002,
[3]
人工神经网络与模拟进化计算.[M].阎平凡;张长水编著;.清华大学出版社.2000,
[4]
人工智能及其应用.[M].蔡自兴;徐光〓[编著];.清华大学出版社.1996,
[5]
神经网络应用技术.[M].胡守仁主编;沈清等编著;.国防科技大学出版社.1993,
[6]
A FURTHER COMPARISON OF SPLITTING RULES FOR DECISION-TREE INDUCTION [J].
BUNTINE, W ;
NIBLETT, T .
MACHINE LEARNING, 1992, 8 (01) :75-85
[7]
神经网络专家系统及其数据挖掘技术的探讨 [J].
倪志伟 ;
蔡庆生 ;
史东辉 .
系统工程学报, 2001, (01) :61-65
[8]
用神经网络来挖掘数据库中的关联规则 [J].
倪志伟 ;
蔡庆生 ;
方瑾 .
系统仿真学报, 2000, (06) :685-687
[9]
神经网络数据挖掘方法中的数据准备问题 [J].
宋擒豹 ;
沈钧毅 .
计算机工程与应用, 2000, (12) :102-104
[10]
基于神经网络的分类决策树构造 [J].
徐爱琴 ;
张德贤 ;
不详 .
计算机工程与应用 , 2000, (10) :43-45+55