数据起源在多版本文档检索中的应用

被引：6

作者：

陈悦 ^{[1
]}

董红斌 ^{[2
]}

谭成予 ^{[1
]}

梁意文 ^{[1
]}

机构：

[1] 武汉大学计算机学院

[2] 武汉大学国际软件学院

来源：

上海大学学报(自然科学版) | 2018年 / 24卷 / 05期

基金：

国家高技术研究发展计划(863计划);

关键词：

多版本文档; 文档检索; 数据起源; PROV模型;

D O I：

暂无

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

120506 [数字人文];

摘要：

随着计算机的普及和大数据时代的来临,个人计算机中文档的版本数急剧增加,用户想要迅速找到所需的文档绝非易事.相关研究表明,文件的起源信息可以为用户提供快速定位目标文档的线索.已有的一些基于数据起源的检索方式,其起源粒度多数是文件级的.但对于内容相关性较高的文档来说,文件级的起源信息无法清晰地描述内容间的关联关系,也就无法给予用户充分的帮助.基于PROV模型,针对文档版本的变化建立内容级的起源概念模型,并给出了起源词汇表.在资源描述框架(resource description framework, RDF)语言的基础上建立了起源信息的查询访问机制,并给出了可视化方案,为用户提供直观的信息表达.结果表明,该方法通过对文档检索结果的扩展和解释,可以为用户提供更有价值的帮助信息,从而达到快速锁定目标文件的目的,提高工作效率.

引用

页码：730 / 744

页数：15

共 4 条

[1]

Don't Search, Just Show Me What I Did: Visualizing Provenance of Documents and Applications [J].