文档数据库若干关键技术研究

被引:0
作者
刘永丹
机构
[1] 复旦大学
关键词
文档数据库; 全文检索; 结构化检索; XML检索; 文本过滤; 文本挖掘; 互关联后继树;
D O I
暂无
年度学位
2004
学位类型
博士
导师
摘要
随着信息时代的到来和Internet的日益普及,文本信息迅速膨胀,使得文档数据库技术成为信息技术领域的一个重要研究方向。文档数据库是一个存储和管理大量结构化文档的数据库系统,它不仅提供对文档的表达、组织、存储和访问功能,还可以对文档进行诸如文本挖掘、自动文摘等深度处理。 在本文中,我们对文档数据库的一些关键技术进行了研究,具体内容包括全文检索技术、结构化文档检索、文本过滤、文本挖掘以及其它相关技术,取得的创新性成果主要体现在以下四个方面: 1) 对一种新型的全文检索模型—互关联后继树进行研究 我们在原来∑2邻接矩阵模型研究的基础上,发展出来一种新型的数据模型—互关联后继树(IRST),这种模型充分利用了字符序列的有序性和冗余性,适用于海量全文存储和索引。论文分别对IRST的创建、查询和原文生成算法进行研究。IRST保持了∑2邻接矩阵模型的一些优点,还具有更多的优点:可以生成原文,既是全文的索引模型,又是全文的存储模型;具有极佳的空间效率;具有领域独立性和时间无关性;具有查询的完备性:是一种多功能的数据模型,比如,根据它存储的序列信息的特点,可以用于文本序列挖掘。 2) 从IR角度对XML文档检索进行研究 提出了一种基于结构相似度的XML文档检索模型,在检索的过程中根据XML文档的结构和查询路径计算二者的相似度。还提出了一种简单的查询语言--正则路径集(RPS)。我们还采用这个检索模型建立了一个XML文档检索原型系统,并对检索模型进行了实验比较,验证了这个模型能有效地提高XML文档的结构化检索的性能。 3)基于语义分析的文本过滤方法研究 采用语义分析和统计方法相结合的策略对倾向性文本进行识别。论文提出了倾向性文本过滤的框架和过程,并给出了实验测试结果。还对非法文本中常常包 摘要 含的伪装词的构成规律进行了初步探索。如果不能有效识别这些人为设置的非正 常形式的词语,会给文本特征的选取带来障碍,进而影响文本过滤的准确性。论 文还对面向伪装词的文本特征选取方法进行了研究。 4)基于IRST的文本序列挖掘方法研究 利用仅ST的存储了文本序列的特点,论文采用琅ST作为文本挖掘的工具, 研究了琅ST进行频繁集挖掘的方法,这个方法是一个通用技术,不局限于应用 在文本的挖掘。然后又研究了将IRST用在文本序列挖掘上面,利用了IRsT可 以直接计算文本序列的支持度的特点。由工RST进行序列挖掘具有不生成候选集 的特点,具有非常好的挖掘效率,是一种具有较大潜力的文本挖掘方法。
引用
收藏
页数:125
共 4 条
[1]
基于语义分析的倾向性文本过滤 [J].
刘永丹 ;
曾海泉 ;
李荣陆 ;
胡运发 .
通信学报, 2004, (07) :78-85
[2]
基于互关联后继树的多时间序列关联模式挖掘 [J].
曾海泉 ;
刘永丹 ;
宋扬 ;
胡运发 .
计算机研究与发展, 2003, (07) :934-940
[3]
Information filtering and information retrieval.[J].Nicholas J. Belkin;W. Bruce Croft.Communications of the ACM.1992, 12
[4]
基于Σ2邻接矩阵的全文数据库表达和操作方法 [P]. 
胡运发 ;
周水庚 .
中国专利 :CN1237736A ,1999-12-08