文本挖掘若干关键技术研究

被引:0
作者
李芳
机构
[1] 北京化工大学
关键词
文本挖掘; 向量空间模型; 文本聚类; 非负矩阵分解; 层次聚类; 核函数; 局部自适应聚类算法; testor理论; 科研信息自动建议;
D O I
暂无
年度学位
2010
学位类型
博士
导师
摘要
随着网络信息技术的飞速发展,能获得的文本信息集合出现了爆炸性的增长。人们在为如此海量、丰富的文本资源欣喜之余,又不得不为难以驾驭如此庞大的信息而惋惜。文本挖掘技术就在这样的背景下应运而生并受到越来越多的关注。作为一个新的正在迅速成为热点的研究领域,文本挖掘致力于从庞大的文本资源中找到“金矿”,为用户服务。 文本挖掘从数据采集到知识的发现是一个复杂而又繁琐的过程。要经历数据的准备、模型的建立、文本的挖掘、结果的展示等一系列的过程。本文就其中的关键步骤和难点问题进行了研究,主要内容如下: 本文首先研究了向量空间模型建模的整个过程,针对两个标准的benchmark数据集TanCorp(中文)和Reuters(英文)建立了向量空间模型,作为后续研究的基础。同时,针对向量空间模型所使用的关键词集过于庞大而导致的模型高维性问题,引入关联规则方法对其进行简化,并给出了对文本数据进行关联分析的具体实现方案以及当有新的文档到达时的增量更新方法。 本文重点研究了文本数据的聚类方法。对基于非负矩阵分解的聚类相关理论和算法进行了深入地分析和探讨。为了进一步提高非负矩阵分解方法的收敛性能,提出了两种新的基于矩阵变换的非负矩阵分解算法,并从相关理论分析和性能仿真的角度对其进行了验证。仿真试验表明,基于矩阵变换的NMF算法,具有和现有方案类似的计算复杂度,却可以有效提高非负矩阵分解的收敛速度。 同时,针对文本数据中高度相关难以划分的问题,引入核聚类方法,在对核函数的基本理论进行总结的基础上,深入研究了核聚类算法、模糊核聚类算法以及基于语义核的局部自适应聚类算法,在此基础上,将高斯核与语义信息结合起来,提出基于高斯语义核的局部自适应聚类算法,以提高核聚类算法的性能。并分别结合人工生成数据集以及Reuters文本数据集合进行了仿真评估。 在此基础上,针对文本数据中存在大量层次类别关系的问题,研究了划分和凝聚相结合的层次聚类思想,重点分析了基于NMF的层次聚类算法,对于如何确定层次聚类的数目进行了讨论,提出了两种不同的基于NMF的层次聚类处理方法。结合TanCorp多层数据集的研究和仿真表明:基于特征-文本矩阵V进行凝聚层次聚类的算法可以在不影响聚类效果的前提下大大降低计算复杂度。此外,还研究了聚类结果的两种表示方法,对基于NMF的聚类表示和基于testor理论的聚类表示进行了深入的分析。 最后,将所研究的文本挖掘方法应用到科研信息领域,设计并架构了用于进行科研信息自动建议的原型系统,并给出了初步的仿真结果。
引用
收藏
页数:106
共 32 条
[1]
基于非负矩阵分解的中文文本主题分类 [J].
张磊 ;
冯晓森 ;
项学智 .
计算机工程, 2009, 35 (13) :26-27+54
[2]
基于小波域NMF特征提取的SAR图像目标识别方法 [J].
宦若虹 ;
杨汝良 .
电子与信息学报, 2009, 31 (03) :588-591
[3]
Non-Independent Term Selection for Chinese Text Categorization [J].
李景阳 ;
孙茂松 .
TsinghuaScienceandTechnology, 2009, 14 (01) :113-120
[4]
NMF初始化研究及其在文本分类中的应用 [J].
翟亚利 ;
吴翊 .
计算机工程, 2008, (16) :191-193+197
[5]
文本挖掘与中文文本挖掘模型研究 [J].
谌志群 ;
张国煊 .
情报科学 , 2007, (07) :1046-1051
[6]
一种增量式文本软聚类算法 [J].
冯中慧 ;
鲍军鹏 ;
沈钧毅 .
西安交通大学学报, 2007, (04) :398-401+411
[7]
基于机器学习的文本分类技术研究进展 [J].
苏金树 ;
张博锋 ;
徐昕 .
软件学报, 2006, (09) :1848-1859
[8]
Nonnegative matrix factorization and its applications in pattern recognition [J].
Liu, WX ;
Zheng, N ;
You, QB .
CHINESE SCIENCE BULLETIN, 2006, 51 (01) :7-18
[9]
基于潜在语义空间维度特性的多层文档聚类 [J].
刘云峰 ;
齐欢 ;
代建民 .
清华大学学报(自然科学版), 2005, (自然科学版) :1783-1786
[10]
文本挖掘研究进展 [J].
谌志群 ;
张国煊 .
模式识别与人工智能, 2005, 18 (01) :65-74