相似文本的快速搜索

被引:7
作者
燕继坤
郑辉
席建民
机构
[1] 西南电子电信技术研究所国家重点实验室,西南电子电信技术研究所国家重点实验室,西南电子电信技术研究所国家重点实验室成都,成都,成都
关键词
大规模文本处理; 相似文本搜索; 复制检测;
D O I
暂无
中图分类号
TP391.43 [];
学科分类号
摘要
相似文本的快速搜索是大规模文本处理需要解决的基本问题。从两方面改进了Udi的相似文本搜索方法,通过Hash把集合映射成ID,从而得到更快的集合比较算法,重新定义了相似关系,能够减少误判,同时对有固定格式的文本也有更好的效果。
引用
收藏
页码:22 / 23+71 +71
页数:3
相关论文
empty
未找到相关数据