基于潜在语义与图结构的微博语义检索

被引:11
作者
肖宝 [1 ]
李璞 [2 ,3 ]
胡娇娇 [2 ]
蒋运承 [2 ]
机构
[1] 钦州学院电子与信息工程学院
[2] 华南师范大学计算机学院
[3] 郑州轻工业学院软件学院
基金
广州市科技计划项目;
关键词
微博; 文本相关度; 图结构; 隐含狄利克雷分布; 语义检索;
D O I
暂无
中图分类号
TP391.1 [文字信息处理]; TP393.092 [];
学科分类号
120506 [数字人文];
摘要
微博文本短小、特征稀疏、与用户查询之间存在语义鸿沟的特点会降低语义检索效率。针对该问题,结合文本特征和知识库语义,构建基于潜在语义与图结构的语义检索模型。通过Tversky算法计算基于Hashtag的特征相关度;利用隐含狄利克雷分布算法对Wikipedia语料库训练主题模型,基于JSD距离计算映射到该模型的文本主题相关度;抽取DBpedia中实体及其网络关系连接图,使用SimRank算法计算图中实体间的相关度。综合以上3个结果得到最终相关度。通过短文本和长文本检索对Twitter子集进行实验,结果表明,与基于开放关联数据和图论的方法相比,该模型在评估指标MAP,P@30,R-Prec上分别提高了2.98%,6.40%,5.16%,具有较好的检索性能。
引用
收藏
页码:182 / 188+194 +194
页数:8
相关论文
共 7 条
[1]
一种融合聚类和时间信息的微博排序新方法 [J].
卫冰洁 ;
史亮 ;
王斌 .
中文信息学报, 2015, 29 (03) :177-183+189
[2]
基于文本聚类与LDA相融合的微博主题检索模型研究 [J].
唐晓波 ;
房小可 .
情报理论与实践, 2013, 36 (08) :85-90
[3]
Microblog semantic context retrieval system based on linked open data and graph-based theory.[J].Fahd Kalloubi;El Habib Nfaoui;Omar El beqqali.Expert Systems With Applications.2016,
[4]
Unsupervised topic discovery in micro-blogging networks [J].
Vicient, Carlos ;
Moreno, Antonio .
EXPERT SYSTEMS WITH APPLICATIONS, 2015, 42 (17-18) :6472-6485
[5]
A space and time efficient algorithm for SimRank computation.[J].Weiren Yu;Wenjie Zhang;Xuemin Lin;Qing Zhang;Jiajin Le.World Wide Web.2012, 3
[6]
Enriching short text representation in microblog for clustering [J].
Tang, Jiliang ;
Wang, Xufei ;
Gao, Huiji ;
Hu, Xia ;
Liu, Huan .
FRONTIERS OF COMPUTER SCIENCE, 2012, 6 (01) :88-101
[7]
Query Polyrepresentation for Ranking Retrieval Systems Without Relevance Judgments [J].
Efron, Miles ;
Winget, Megan .
JOURNAL OF THE AMERICAN SOCIETY FOR INFORMATION SCIENCE AND TECHNOLOGY, 2010, 61 (06) :1081-1091