一种中文句子相似度的计算方法

被引：0

作者：

李文轩

机构：

[1] 华中科技大学

关键词：

自然语言处理; 句子相似度; 语义依存; 词频概率;

D O I：

暂无

年度学位：

2016

学位类型：

硕士

导师：

王同洋;

摘要：

在中文信息处理中,中文句子相似度的计算用于文件摘要、语音系统、文本数据挖掘等领域。它是一个非常关键的问题,长期以来都是人们研究的热点和难点。在网页搜索过程中,查询句子与网页之间语义相关是指网页有助于满足用户查询需求。传统的相关度计算多以句子关键词匹配为主,由于关键词难以确定,常常造成中文句子相似度的计算的不准确。本文认为一个句子是一个完整信息的表达,句子中的各个组成成分存在语义依存关系,在此基础上建立了语义依存关系树。通过对中文句子的语义依存关系树的分析,发现了中文句子语义依存关系树中的层与层之间存在指数关系。论文按照这种层次关系为基础,给出了其计算的方法和计算公式。又由于建立中文语义依存关系树的准确度不高,还结合了词频概率的相似度计算方法。本文采用一种语义相关度计算的新思路,在传统的文本相似度技术中融入了语义依存关系树、特征词权重、信息熵等技术手段。运用本文所提出的算法对中文句子语义相关度标注数据集进行了相似度计算的实验,对该算法的准确性和有效性进行了验证。经过实验后的实验结果表明,采用此算法在某种程度上比传统的中文句子相似度算法更加准确。

引用

页数：56

共 34 条

[1]

基于句法语义特征的中文实体关系抽取 [J].