一种中文句子相似度的计算方法

被引:0
作者
李文轩
机构
[1] 华中科技大学
关键词
自然语言处理; 句子相似度; 语义依存; 词频概率;
D O I
暂无
年度学位
2016
学位类型
硕士
导师
摘要
在中文信息处理中,中文句子相似度的计算用于文件摘要、语音系统、文本数据挖掘等领域。它是一个非常关键的问题,长期以来都是人们研究的热点和难点。在网页搜索过程中,查询句子与网页之间语义相关是指网页有助于满足用户查询需求。传统的相关度计算多以句子关键词匹配为主,由于关键词难以确定,常常造成中文句子相似度的计算的不准确。本文认为一个句子是一个完整信息的表达,句子中的各个组成成分存在语义依存关系,在此基础上建立了语义依存关系树。通过对中文句子的语义依存关系树的分析,发现了中文句子语义依存关系树中的层与层之间存在指数关系。论文按照这种层次关系为基础,给出了其计算的方法和计算公式。又由于建立中文语义依存关系树的准确度不高,还结合了词频概率的相似度计算方法。本文采用一种语义相关度计算的新思路,在传统的文本相似度技术中融入了语义依存关系树、特征词权重、信息熵等技术手段。运用本文所提出的算法对中文句子语义相关度标注数据集进行了相似度计算的实验,对该算法的准确性和有效性进行了验证。经过实验后的实验结果表明,采用此算法在某种程度上比传统的中文句子相似度算法更加准确。
引用
收藏
页数:56
共 34 条
[1]
基于句法语义特征的中文实体关系抽取 [J].
甘丽新 ;
万常选 ;
刘德喜 ;
钟青 ;
江腾蛟 .
计算机研究与发展, 2016, (02) :284-302
[2]
基于依存句法和二叉树模型的评价对象抽取 [J].
张建华 ;
翁鸣 ;
李晓乐 ;
刘芳 .
计算机技术与发展, 2016, 26 (02) :52-55+60
[3]
装饰者模式在定制化电子商务中的应用 [J].
方雅婧 ;
饶浩 ;
于卫红 ;
陈燕 .
微型电脑应用, 2014, 30 (10) :20-22
[4]
基于动态规划的汉语句子相似度算法 [J].
冯凯 ;
王小华 ;
谌志群 .
计算机工程, 2013, 39 (02) :220-224
[5]
语义分析与词频统计相结合的中文文本相似度量方法研究 [J].
华秀丽 ;
朱巧明 ;
李培峰 .
计算机应用研究, 2012, 29 (03) :833-836
[6]
一种基于知网的句子相似度计算方法 [J].
程传鹏 ;
吴志刚 .
计算机工程与科学, 2012, 34 (02) :172-175
[7]
语言技术平台 [J].
刘挺 ;
车万翔 ;
李正华 .
中文信息学报, 2011, 25 (06) :53-62
[8]
基于权重的Jaccard相似度度量的实体识别方法 [J].
潘磊 ;
雷钰丽 ;
王崇骏 ;
谢俊元 .
北京交通大学学报, 2009, 33 (06) :141-145
[9]
基于Levenshtein distance算法的句子相似度计算 [J].
吉胜军 .
电脑知识与技术, 2009, 5 (09) :2177-2178
[10]
基于改进编辑距离和依存文法的汉语句子相似度计算 [J].
刘宝艳 ;
林鸿飞 ;
赵晶 .
计算机应用与软件, 2008, (07) :33-34+47