基于非分词技术的科技项目查重研究与实现

被引：0

作者：

左川

机构：

[1] 重庆大学

关键词：

科技项目查重; 非分词; FCSNV; 后缀树; 频繁闭项集;

D O I：

暂无

年度学位：

2010

学位类型：

硕士

导师：

李学明;

摘要：

随着我国科研投入的增加,如何管理好科研经费成为管理者所关心的问题。在科研项目立项管理中,常常需要找到相似的科研项目申请(简称科技项目查重),以避免重复立项或提高评审效率等。通过计算科技项目申请书的相似度,可以解决上述问题。科技项目申请书相似度计算,本质上就是中文文本相似度计算。传统上为了计算中文文本的相似度,需要利用分词技术从中文文本中提取出词作为文本的特征点。这种方法对词典的依赖很大,也因此常常无法提取到科技项目申请书中的专业名词,而这些专业名词却恰恰是科技项目申请书最为重要的特征点。本文利用后缀树来提取科技项目申请书中的相同部分,并挖掘后缀树节点的频繁闭项集作为科技项目申请书的特征点,从而构建向量空间模型—频繁闭项后缀树节点集向量(FCSNV)—来计算科技项目申请书的相似度。本文主要做了以下研究工作: ①利用Ukkonen算法思想,本文实现了科技项目申请书集的后缀树的构建; ②本文实现了CHARM算法用来挖掘后缀树节点的频繁闭项集; ③利用频繁闭项集构造向量空间模型来表示科技项目申请书,并通过实现验证了该模型在计算中文文本相似度时的有效性; ④在.net平台下实现了本文提出的算法。综上所述,本文提出了一种基于非分词技术解决科技项目查重问题的方法,该方法能够有效地找到科技项目申请书的特征点,从而在计算科技项目申请书相似度时具有良好的性能。

引用

页数：59

共 8 条

[1]

基于层叠隐马模型的汉语词法分析 [J].