文本相似度计算方法研究综述

被引:298
作者
陈二静 [1 ,2 ]
姜恩波 [2 ]
机构
[1] 中国科学院成都文献情报中心
[2] 中国科学院大学
关键词
文本相似度; 语义相似度; 本体; 词袋模型; 神经网络;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
【目的】分析文本相似度计算方法,了解该领域的发展态势。【文献范围】在CNKI和Web of Science中分别以检索式"篇名:文本相似度OR篇名:词汇相似度OR篇名:语义相似度"和"TI:‘text similarity’or‘semantic similarity’or‘lexical similarity’"并限定文献类型进行检索,最终得到69篇重点文献。【方法】对文本相似度计算方法进行系统梳理,分析重点方法的基本思想、特点并总结未来发展方向。【结果】形成了较为全面的分类描述体系,文本相似度计算方法可分为4类:基于字符串的方法、基于语料库的方法、基于世界知识的方法和其他方法。其中,基于神经网络和基于世界知识的方法以及针对跨领域文本的相似度计算将成为该领域的发展趋势。【局限】仅将不同方法本身作为探讨的核心,未进一步分析方法的应用情况。【结论】有助于全面把握和深入了解文本相似度计算方法的研究现状和未来趋势。
引用
收藏
页码:1 / 11
页数:11
相关论文
共 46 条
[1]
Efficient Hybrid Semantic Text Similarity using Wordnet and a Corpus [J].
Atoum, Issa ;
Otoom, Ahmed .
INTERNATIONAL JOURNAL OF ADVANCED COMPUTER SCIENCE AND APPLICATIONS, 2016, 7 (09) :124-130
[2]
A Review on Text Similarity Technique used in IR and its Application.[J].Pradhan Nitesh;Gyanchandani Manasi;Wadhvani Rajesh.International Journal of Computer Applications.2015, 9
[3]
A semantic logic-based approach to determine textual similarity.[J].Eduardo Blanco;Dan Moldovan.IEEE/ACM Transactions on Audio; Speech and Langua.2015, 4
[4]
A Survey of Text Similarity Approaches.[J].H.Gomaa Wael;A. Fahmy Aly.International Journal of Computer Applications.2013, 13
[5]
Applying VSM and LCS to develop an integrated text retrieval mechanism.[J].Cheng-Shiun Tasi;Yong-Ming Huang;Chien-Hung Liu;Yueh-Min Huang.Expert Systems With Applications.2011, 4
[6]
An ontology-based measure to compute semantic similarity in biomedicine.[J].Montserrat Batet;David Sánchez;Aida Valls.Journal of Biomedical Informatics.2010, 1
[7]
Semantic text similarity using corpus-based word similarity and string similarity [J].
Islam, Aminul ;
Inkpen, Diana .
ACM Transactions on Knowledge Discovery from Data, 2008, 2 (02)
[8]
The Google similarity distance [J].
Cilibrasi, Rudi L. ;
Vitanyi, Paul M. B. .
IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING, 2007, 19 (03) :370-383
[9]
Investigating semantic similarity measures across the Gene Ontology: the relationship between sequence and annotation [J].
Lord, PW ;
Stevens, RD ;
Brass, A ;
Goble, CA .
BIOINFORMATICS, 2003, 19 (10) :1275-1283
[10]
An approach for measuring semantic similarity between words using multiple information sources [J].
Li, YH ;
Bandar, ZA ;
McLean, D .
IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING, 2003, 15 (04) :871-882