基于WMFLDA主题模型的文本相似度计算

被引:33
作者
张璐 [1 ]
芦天亮 [1 ,2 ]
杜彦辉 [1 ,2 ]
机构
[1] 中国人民公安大学信息技术与网络安全学院
[2] 中国人民公安大学网络空间安全与法治协同创新中心
基金
国家重点研发计划;
关键词
词语语义; 词语合并; 词性筛选; 文本相似度;
D O I
10.19734/j.issn.1001-3695.2018.04.0219
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
利用LDA模型进行文本相似度的计算考虑到了语义特征,但是存在词语数量多、未结合词语语义、未从文本层面挖掘和利用不同类别文本固有的领域间差异的缺点。针对以上问题,提出WMFLDA(词语合并与过滤潜在狄利克雷分布)主题模型。将领域词和近义词进行统一化映射,并根据词性将文本进行过滤,最后再进行主题建模。实验证明,该方法使得建模时词语量大大减少,减少了建模过程的时间消耗,提高了最后的文本聚类的速度。并且与其他文本相似度方法相比,提出的方法在准确度上也有一定程度的提升。
引用
收藏
页码:2916 / 2919+2951 +2951
页数:5
相关论文
共 12 条
[1]
Efficient Hybrid Semantic Text Similarity using Wordnet and a Corpus [J].
Atoum, Issa ;
Otoom, Ahmed .
INTERNATIONAL JOURNAL OF ADVANCED COMPUTER SCIENCE AND APPLICATIONS, 2016, 7 (09) :124-130
[2]
A semantic logic-based approach to determine textual similarity.[J].Eduardo Blanco;Dan Moldovan.IEEE/ACM Transactions on Audio; Speech and Langua.2015, 4
[3]
基于自然语言检索的综合相似度计算算法 [J].
徐浩广 ;
王宁 ;
刘佳明 ;
邱燕 .
计算机系统应用, 2017, 26 (06) :170-175
[4]
基于卷积网络的句子语义相似性模型 [J].
黄江平 ;
姬东鸿 .
华南理工大学学报(自然科学版), 2017, 45 (03) :68-75
[5]
基于词汇语义信息的文本相似度计算 [J].
谷重阳 ;
徐浩煜 ;
周晗 ;
张俊杰 .
计算机应用研究, 2018, 35 (02) :391-395
[6]
结合词性的短文本相似度算法及其在文本分类中的应用 [J].
黄贤英 ;
李沁东 ;
刘英涛 .
电讯技术, 2017, 57 (01) :78-82
[7]
一种PSTLDA中文文本相似度计算方法 [J].
张超 ;
陈利 ;
李琼 .
计算机应用研究, 2016, 33 (02) :375-377+383
[8]
基于词项语义映射的短文本相似度算法 [J].
黄贤英 ;
张金鹏 ;
刘英涛 ;
赵明军 .
计算机工程与设计, 2015, 36 (06) :1514-1518+1534
[9]
基于LDA的中文文本相似度计算 [J].
孙昌年 ;
郑诚 ;
夏青松 .
计算机技术与发展, 2013, 23 (01) :217-220
[10]
一种结合词项语义信息和TF-IDF方法的文本相似度量方法 [J].
黄承慧 ;
印鉴 ;
侯昉 .
计算机学报, 2011, 34 (05) :856-864