知识发现的图模型方法

被引:0
作者
李刚
机构
[1] 中国科学院软件研究所
关键词
图模型,有向图模型,知识发现,概率依赖关系,计算智能;
D O I
暂无
年度学位
2001
学位类型
博士
导师
摘要
作为概率论和图论相结合的产物,图模型理论为解决应用数学和工程中的 不确定性、复杂性问题提供了直观而自然的方法。近年来它逐步成为数据发掘 与知识发现领域中一个不容忽视的方向。根据“基于有向图模型的知识发现” 框架,本文研究图模型在知识发现领域的应用理论基础,包括离散化预处理、 结构学习、参数学习、模型解释等四个方面。 首先,本文分别提出了连续数值属性的无监督离散化算法和有监督离散化 算法。无监督离散化算法基于混合概率模型,它能够在缺少先验知识和参考属 性时自动离散化数值区间:首先建立属性值的混合概率模型,然后采用EM算 法来确定该模型的参数,最后利用贝叶斯因子寻求最佳区间数目。有监督离散 化算法-力权信息损耗离散化算法,是决策树离散化算法的一种扩展,但采用 了ChiMerge算法中的自底向上离散化方式。 然后,本文从概率密度函数逼近的角度对有向图模型的结构学习进行了理 论分析,归纳出“最大相互信息原则”,分析了运用该原则进行结构学习时的 性质,并提出了“附加惩罚函数的最大相互信息原则”,进而提出了有向图模 型结构学习的演化算法,该算法可以结合两类先验知识以提高学习效率,并设 计了一系列修正算子,以保证由已有拓扑结构繁衍出的新结构仍然是符合要求 的拓扑结构,而且不违背先验知识。 针对有向图模型的参数学习,本文提出基于复合计算智能的方法,设计了 各节点处条件概率密度的人工神经网络表示方法,使得参数学习时不再要求参 数满足局部无关性,也不再需要用户指定先验参数,进而提出了该人工神经网 中国科学院博士学位研究生学位论文 络的演化训练算法,从而确定有向图模型各节点处参数的值。 此外,本文还探讨了有向图模型的模型解释问题,分别提出了概率依赖关 系描述、条件独立关系的自然语言描述方法。 最后,本文介绍了一个概率依赖关系发现系统原型工具Dr.Miner的设计和 实现。
引用
收藏
页数:125
共 24 条
[1]
论数据发掘的计算智能方法 [J].
童頫 .
计算机科学, 1998, (02) :21-23
[2]
论计算智能及其应用 [J].
童兆页 .
计算机研究与发展 , 1997, (S1)
[3]
知识库增长过程中对新知识的消化和吸收 [J].
李德毅 .
计算机学报, 1988, (04) :251-256
[4]
隶属云和隶属云发生器 [J].
李德毅 ;
孟海军 ;
史雪梅 .
计算机研究与发展 , 1995, (06)
[5]
基于大型数据仓库的数据采掘:研究综述 [J].
胡侃 ;
夏绍玮 .
软件学报, 1998, (01)
[6]
Charlie Calvert's Delphi 4 Unleashed..Calvert; Charlie;.Sams Publishing.1999,
[7]
Efficient Inference in Bayesian Networks as a Combinatorial Optimization Problem..Li; Z. and D'Ambrosio; B;.International Journal of Approximate Reasoning.1994,
[8]
Conditonal Possibilities.Independence; and Noninteraction..Hisdal; E;.Fuzzy Sets and Systems.1978,
[9]
Introduction to Graphical Modeling..Edwards; D;.New York: Springer-Verlag.1995,
[10]
Neural Networks for Pattern Recognition..Bishop; C.M;.Oxford; UK: Oxford University Press.1995,