基于语义和TF-IDF的项目相似度计算方法

被引:9
作者
赵士杰
陈秋
机构
[1] 杭州电子科技大学软件与智能技术研究所
关键词
TF-IDF; 语义理解; 《知网》; 特征项权重; 相似度计算;
D O I
10.16644/j.cnki.cn33-1094/tp.2015.05.013
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
基于统计的TF-IDF相似度计算方法由于不考虑词语的语义信息,不能准确地反映文本间的相似性。针对该问题,提出一种结合语义理解和TF-IDF的科技项目相似度计算方法。在项目分词的基础上,利用《知网》计算两个项目间的特征项语义相似度,基于TF-IDF计算每个特征项的权重,然后针对权重大于给定阈值的特征项进行加权进而计算得到项目相似度值。实验结果表明,该方法效果优于单纯的TF-IDF和语义理解的方法。
引用
收藏
页码:1 / 3+6 +6
页数:4
相关论文
共 4 条
[1]
基于《知网》义原空间的文本相似度计算 [J].
肖志军 ;
冯广丽 .
科学技术与工程, 2013, 13 (29) :8651-8656
[2]
基于加权语义网的文本相似度计算的研究 [J].
廖开际 ;
杨彬彬 .
情报杂志 , 2012, (07) :182-186
[3]
科技项目管理中知识的界定与表示方法研究 [J].
李海峰 ;
党延忠 .
项目管理技术, 2010, 8 (02) :29-34
[4]
基于语义理解的文本相似度算法 [J].
金博 ;
史彦军 ;
滕弘飞 .
大连理工大学学报, 2005, (02) :291-297