混合词汇特征和LDA的语义相关度计算方法

被引:5
作者
肖宝 [1 ]
李璞 [2 ,3 ]
蒋运承 [2 ]
机构
[1] 钦州学院电子与信息工程学院
[2] 华南师范大学计算机学院
[3] 郑州轻工业学院软件学院
基金
广州市科技计划项目;
关键词
主题模型; 词汇特征; 显式语义分析(ESA); 隐含狄利克雷分布(LDA); 语义相关度计算;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
文本语义相关度计算在自然语言处理、语义信息检索等方面起着重要作用,以Wikipedia为知识库,基于词汇特征的ESA(Explicit Semantic Analysis)因简单有效的特点在这些领域中受到学术界的广泛关注和应用。然而其语义相关度计算因为有大量冗余概念的参与变成了一种高维度、低效率的计算方式,同时也忽略了文本所属主题因素对语义相关度计算的作用。引入LDA(Latent Dirichlet Allocation)主题模型,对ESA返回的相关度较高的概念转换为模型的主题概率向量,从而达到降低维度和提高效率的目的;将JSD距离(Jensen-Shannon Divergence)替换余弦距离的测量方法,使得文本语义相关度计算更加合理和有效。最后对不同层次的数据集进行算法的测试评估,结果表明混合词汇特征和主题模型的语义相关度计算方法的皮尔逊相关系数比ESA和LDA分别高出3%和9%以上。
引用
收藏
页码:152 / 157+165 +165
页数:7
相关论文
共 10 条
[1]   基于Wikipedia的短文本语义相关度计算方法 [J].
王荣波 ;
谌志群 ;
周建政 ;
李治 ;
高飞 .
计算机应用与软件, 2015, 32 (01) :82-85+92
[2]   WSR:一种基于维基百科结构信息的语义关联度计算算法 [J].
孙琛琛 ;
申德荣 ;
单菁 ;
聂铁铮 ;
于戈 .
计算机学报, 2012, 35 (11) :2361-2370
[3]   Feature-based approaches to semantic similarity assessment of concepts using Wikipedia [J].
Jiang, Yuncheng ;
Zhang, Xiaopei ;
Tang, Yong ;
Nie, Ruihua .
INFORMATION PROCESSING & MANAGEMENT, 2015, 51 (03) :215-234
[4]  
Computing semantic relatedness using Wikipedia features[J] . Mohamed Ali Hadj Taieb,Mohamed Ben Aouicha,Abdelmajid Ben Hamadou.Knowledge-Based Systems . 2013
[5]  
Using semi-structured data for assessing research paper similarity[J] . Germán Hurtado Martín,Steven Schockaert,Chris Cornelis,Helga Naessens.Information Sciences . 2013
[6]  
Combining Lexical and Semantic Features for Short Text Classification[J] . Lili Yang,Chunping Li,Qiang Ding,Li Li.Procedia Computer Science . 2013
[7]  
Concept similarity in Formal Concept Analysis: An information content approach[J] . Anna Formica.Knowledge-Based Systems . 2007 (1)
[8]  
A vector space model for automatic indexing[J] . G. Salton,A. Wong,C. S. Yang.Communications of the ACM . 1975 (11)
[9]  
[J] . .
[10]  
Computing semantic relatedness using wikipedia link structure .2 Milne D. Proceedings of thenew zealand computer science research student conference . 2007