基于非分词技术的科技项目查重研究与实现

被引:0
作者
左川
机构
[1] 重庆大学
关键词
科技项目查重; 非分词; FCSNV; 后缀树; 频繁闭项集;
D O I
暂无
年度学位
2010
学位类型
硕士
导师
摘要
随着我国科研投入的增加,如何管理好科研经费成为管理者所关心的问题。在科研项目立项管理中,常常需要找到相似的科研项目申请(简称科技项目查重),以避免重复立项或提高评审效率等。 通过计算科技项目申请书的相似度,可以解决上述问题。科技项目申请书相似度计算,本质上就是中文文本相似度计算。传统上为了计算中文文本的相似度,需要利用分词技术从中文文本中提取出词作为文本的特征点。这种方法对词典的依赖很大,也因此常常无法提取到科技项目申请书中的专业名词,而这些专业名词却恰恰是科技项目申请书最为重要的特征点。 本文利用后缀树来提取科技项目申请书中的相同部分,并挖掘后缀树节点的频繁闭项集作为科技项目申请书的特征点,从而构建向量空间模型—频繁闭项后缀树节点集向量(FCSNV)—来计算科技项目申请书的相似度。 本文主要做了以下研究工作: ①利用Ukkonen算法思想,本文实现了科技项目申请书集的后缀树的构建; ②本文实现了CHARM算法用来挖掘后缀树节点的频繁闭项集; ③利用频繁闭项集构造向量空间模型来表示科技项目申请书,并通过实现验证了该模型在计算中文文本相似度时的有效性; ④在.net平台下实现了本文提出的算法。 综上所述,本文提出了一种基于非分词技术解决科技项目查重问题的方法,该方法能够有效地找到科技项目申请书的特征点,从而在计算科技项目申请书相似度时具有良好的性能。
引用
收藏
页数:59
共 8 条
[1]
基于层叠隐马模型的汉语词法分析 [J].
刘群 ;
张华平 ;
俞鸿魁 ;
程学旗 .
计算机研究与发展, 2004, (08) :1421-1429
[2]
[3]
书面汉语的自动分词与一个自动分词系统—CDWS [J].
梁南元 .
北京航空学院学报, 1984, (04) :97-104
[4]
On-line construction of suffix trees.[J].E. Ukkonen.Algorithmica.1995, 3
[5]
A Space-Economical Suffix Tree Construction Algorithm.[J].Edward M. McCreight.Journal of the ACM (JACM).1976, 2
[6]
A vector space model for automatic indexing.[J].G. Salton;A. Wong;C. S. Yang.Communications of the ACM.1975, 11
[7]
中文文本分类语料库-TanCorpV1.0..谭松波;王月粉;.http://www.searchforum.org.cn/tansongbo/corpus1.php.2006,
[8]
Tf-idf..Wikipeida;.http://en.wikipedia.org/wiki/Tf%E2%80%93idf.2010,