数据起源在多版本文档检索中的应用

被引:6
作者
陈悦 [1 ]
董红斌 [2 ]
谭成予 [1 ]
梁意文 [1 ]
机构
[1] 武汉大学计算机学院
[2] 武汉大学国际软件学院
基金
国家高技术研究发展计划(863计划);
关键词
多版本文档; 文档检索; 数据起源; PROV模型;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
随着计算机的普及和大数据时代的来临,个人计算机中文档的版本数急剧增加,用户想要迅速找到所需的文档绝非易事.相关研究表明,文件的起源信息可以为用户提供快速定位目标文档的线索.已有的一些基于数据起源的检索方式,其起源粒度多数是文件级的.但对于内容相关性较高的文档来说,文件级的起源信息无法清晰地描述内容间的关联关系,也就无法给予用户充分的帮助.基于PROV模型,针对文档版本的变化建立内容级的起源概念模型,并给出了起源词汇表.在资源描述框架(resource description framework, RDF)语言的基础上建立了起源信息的查询访问机制,并给出了可视化方案,为用户提供直观的信息表达.结果表明,该方法通过对文档检索结果的扩展和解释,可以为用户提供更有价值的帮助信息,从而达到快速锁定目标文件的目的,提高工作效率.
引用
收藏
页码:730 / 744
页数:15
相关论文
共 4 条
[1]
Don't Search, Just Show Me What I Did: Visualizing Provenance of Documents and Applications [J].
Ball, Robert .
INTERNATIONAL JOURNAL OF HUMAN-COMPUTER INTERACTION, 2013, 29 (03) :156-168
[2]
Connections.[J].Craig A. N. Soules;Gregory R. Ganger.ACM SIGOPS Operating Systems Review.2005, 5
[3]
PROV数据溯源模型及Web应用 [J].
倪静 ;
孟宪学 .
图书情报工作, 2014, 58 (03) :13-19
[4]
数据起源技术发展研究综述 [J].
戴超凡 ;
王涛 ;
张鹏程 .
计算机应用研究, 2010, 27 (09) :3215-3221