学术探索
学术期刊
学术作者
新闻热点
数据分析
智能评审
文档数据库若干关键技术研究
被引:0
作者
:
刘永丹
论文数:
0
引用数:
0
h-index:
0
机构:
复旦大学
复旦大学
刘永丹
机构
:
[1]
复旦大学
关键词
:
文档数据库;
全文检索;
结构化检索;
XML检索;
文本过滤;
文本挖掘;
互关联后继树;
D O I
:
暂无
年度学位
:
2004
学位类型
:
博士
导师
:
胡运发;
摘要
:
随着信息时代的到来和Internet的日益普及,文本信息迅速膨胀,使得文档数据库技术成为信息技术领域的一个重要研究方向。文档数据库是一个存储和管理大量结构化文档的数据库系统,它不仅提供对文档的表达、组织、存储和访问功能,还可以对文档进行诸如文本挖掘、自动文摘等深度处理。 在本文中,我们对文档数据库的一些关键技术进行了研究,具体内容包括全文检索技术、结构化文档检索、文本过滤、文本挖掘以及其它相关技术,取得的创新性成果主要体现在以下四个方面: 1) 对一种新型的全文检索模型—互关联后继树进行研究 我们在原来∑2邻接矩阵模型研究的基础上,发展出来一种新型的数据模型—互关联后继树(IRST),这种模型充分利用了字符序列的有序性和冗余性,适用于海量全文存储和索引。论文分别对IRST的创建、查询和原文生成算法进行研究。IRST保持了∑2邻接矩阵模型的一些优点,还具有更多的优点:可以生成原文,既是全文的索引模型,又是全文的存储模型;具有极佳的空间效率;具有领域独立性和时间无关性;具有查询的完备性:是一种多功能的数据模型,比如,根据它存储的序列信息的特点,可以用于文本序列挖掘。 2) 从IR角度对XML文档检索进行研究 提出了一种基于结构相似度的XML文档检索模型,在检索的过程中根据XML文档的结构和查询路径计算二者的相似度。还提出了一种简单的查询语言--正则路径集(RPS)。我们还采用这个检索模型建立了一个XML文档检索原型系统,并对检索模型进行了实验比较,验证了这个模型能有效地提高XML文档的结构化检索的性能。 3)基于语义分析的文本过滤方法研究 采用语义分析和统计方法相结合的策略对倾向性文本进行识别。论文提出了倾向性文本过滤的框架和过程,并给出了实验测试结果。还对非法文本中常常包 摘要 含的伪装词的构成规律进行了初步探索。如果不能有效识别这些人为设置的非正 常形式的词语,会给文本特征的选取带来障碍,进而影响文本过滤的准确性。论 文还对面向伪装词的文本特征选取方法进行了研究。 4)基于IRST的文本序列挖掘方法研究 利用仅ST的存储了文本序列的特点,论文采用琅ST作为文本挖掘的工具, 研究了琅ST进行频繁集挖掘的方法,这个方法是一个通用技术,不局限于应用 在文本的挖掘。然后又研究了将IRST用在文本序列挖掘上面,利用了IRsT可 以直接计算文本序列的支持度的特点。由工RST进行序列挖掘具有不生成候选集 的特点,具有非常好的挖掘效率,是一种具有较大潜力的文本挖掘方法。
引用
收藏
页数:125
共 4 条
[1]
基于语义分析的倾向性文本过滤
[J].
刘永丹
论文数:
0
引用数:
0
h-index:
0
机构:
复旦大学计算机与信息技术系,复旦大学计算机与信息技术系,复旦大学计算机与信息技术系,复旦大学计算机与信息技术系上海,上海,上海,上海
刘永丹
;
论文数:
引用数:
h-index:
机构:
曾海泉
;
论文数:
引用数:
h-index:
机构:
李荣陆
;
胡运发
论文数:
0
引用数:
0
h-index:
0
机构:
复旦大学计算机与信息技术系,复旦大学计算机与信息技术系,复旦大学计算机与信息技术系,复旦大学计算机与信息技术系上海,上海,上海,上海
胡运发
.
通信学报,
2004,
(07)
:78
-85
[2]
基于互关联后继树的多时间序列关联模式挖掘
[J].
论文数:
引用数:
h-index:
机构:
曾海泉
;
刘永丹
论文数:
0
引用数:
0
h-index:
0
机构:
复旦大学计算机与信息技术系,复旦大学计算机与信息技术系,复旦大学计算机与信息技术系,复旦大学计算机与信息技术系上海,上海,上海,上海
刘永丹
;
论文数:
引用数:
h-index:
机构:
宋扬
;
胡运发
论文数:
0
引用数:
0
h-index:
0
机构:
复旦大学计算机与信息技术系,复旦大学计算机与信息技术系,复旦大学计算机与信息技术系,复旦大学计算机与信息技术系上海,上海,上海,上海
胡运发
.
计算机研究与发展,
2003,
(07)
:934
-940
[3]
Information filtering and information retrieval.[J].Nicholas J. Belkin;W. Bruce Croft.Communications of the ACM.1992, 12
[4]
基于Σ2邻接矩阵的全文数据库表达和操作方法
[P].
胡运发
论文数:
0
引用数:
0
h-index:
0
胡运发
;
周水庚
论文数:
0
引用数:
0
h-index:
0
周水庚
.
中国专利
:CN1237736A
,1999-12-08
←
1
→
共 4 条
[1]
基于语义分析的倾向性文本过滤
[J].
刘永丹
论文数:
0
引用数:
0
h-index:
0
机构:
复旦大学计算机与信息技术系,复旦大学计算机与信息技术系,复旦大学计算机与信息技术系,复旦大学计算机与信息技术系上海,上海,上海,上海
刘永丹
;
论文数:
引用数:
h-index:
机构:
曾海泉
;
论文数:
引用数:
h-index:
机构:
李荣陆
;
胡运发
论文数:
0
引用数:
0
h-index:
0
机构:
复旦大学计算机与信息技术系,复旦大学计算机与信息技术系,复旦大学计算机与信息技术系,复旦大学计算机与信息技术系上海,上海,上海,上海
胡运发
.
通信学报,
2004,
(07)
:78
-85
[2]
基于互关联后继树的多时间序列关联模式挖掘
[J].
论文数:
引用数:
h-index:
机构:
曾海泉
;
刘永丹
论文数:
0
引用数:
0
h-index:
0
机构:
复旦大学计算机与信息技术系,复旦大学计算机与信息技术系,复旦大学计算机与信息技术系,复旦大学计算机与信息技术系上海,上海,上海,上海
刘永丹
;
论文数:
引用数:
h-index:
机构:
宋扬
;
胡运发
论文数:
0
引用数:
0
h-index:
0
机构:
复旦大学计算机与信息技术系,复旦大学计算机与信息技术系,复旦大学计算机与信息技术系,复旦大学计算机与信息技术系上海,上海,上海,上海
胡运发
.
计算机研究与发展,
2003,
(07)
:934
-940
[3]
Information filtering and information retrieval.[J].Nicholas J. Belkin;W. Bruce Croft.Communications of the ACM.1992, 12
[4]
基于Σ2邻接矩阵的全文数据库表达和操作方法
[P].
胡运发
论文数:
0
引用数:
0
h-index:
0
胡运发
;
周水庚
论文数:
0
引用数:
0
h-index:
0
周水庚
.
中国专利
:CN1237736A
,1999-12-08
←
1
→