文档数据库若干关键技术研究

被引：0

作者：

刘永丹

机构：

[1] 复旦大学

关键词：

文档数据库; 全文检索; 结构化检索; XML检索; 文本过滤; 文本挖掘; 互关联后继树;

D O I：

暂无

年度学位：

2004

学位类型：

博士

导师：

胡运发;

摘要：

随着信息时代的到来和Internet的日益普及，文本信息迅速膨胀，使得文档数据库技术成为信息技术领域的一个重要研究方向。文档数据库是一个存储和管理大量结构化文档的数据库系统，它不仅提供对文档的表达、组织、存储和访问功能，还可以对文档进行诸如文本挖掘、自动文摘等深度处理。在本文中，我们对文档数据库的一些关键技术进行了研究，具体内容包括全文检索技术、结构化文档检索、文本过滤、文本挖掘以及其它相关技术，取得的创新性成果主要体现在以下四个方面： 1) 对一种新型的全文检索模型—互关联后继树进行研究我们在原来∑2邻接矩阵模型研究的基础上，发展出来一种新型的数据模型—互关联后继树（IRST），这种模型充分利用了字符序列的有序性和冗余性，适用于海量全文存储和索引。论文分别对IRST的创建、查询和原文生成算法进行研究。IRST保持了∑2邻接矩阵模型的一些优点，还具有更多的优点：可以生成原文，既是全文的索引模型，又是全文的存储模型；具有极佳的空间效率；具有领域独立性和时间无关性；具有查询的完备性：是一种多功能的数据模型，比如，根据它存储的序列信息的特点，可以用于文本序列挖掘。 2) 从IR角度对XML文档检索进行研究提出了一种基于结构相似度的XML文档检索模型，在检索的过程中根据XML文档的结构和查询路径计算二者的相似度。还提出了一种简单的查询语言--正则路径集（RPS）。我们还采用这个检索模型建立了一个XML文档检索原型系统，并对检索模型进行了实验比较，验证了这个模型能有效地提高XML文档的结构化检索的性能。 3)基于语义分析的文本过滤方法研究采用语义分析和统计方法相结合的策略对倾向性文本进行识别。论文提出了倾向性文本过滤的框架和过程，并给出了实验测试结果。还对非法文本中常常包摘要含的伪装词的构成规律进行了初步探索。如果不能有效识别这些人为设置的非正常形式的词语，会给文本特征的选取带来障碍，进而影响文本过滤的准确性。论文还对面向伪装词的文本特征选取方法进行了研究。 4)基于IRST的文本序列挖掘方法研究利用仅ST的存储了文本序列的特点，论文采用琅ST作为文本挖掘的工具，研究了琅ST进行频繁集挖掘的方法，这个方法是一个通用技术，不局限于应用在文本的挖掘。然后又研究了将IRST用在文本序列挖掘上面，利用了IRsT可以直接计算文本序列的支持度的特点。由工RST进行序列挖掘具有不生成候选集的特点，具有非常好的挖掘效率，是一种具有较大潜力的文本挖掘方法。

引用

页数：125

共 4 条

[1]

基于语义分析的倾向性文本过滤 [J].