基于WMFLDA主题模型的文本相似度计算

被引：33

作者：

张璐 ^{[1
]}

芦天亮 ^{[1
,2
]}

杜彦辉 ^{[1
,2
]}

机构：

[1] 中国人民公安大学信息技术与网络安全学院

[2] 中国人民公安大学网络空间安全与法治协同创新中心

来源：

计算机应用研究 | 2019年 / 36卷 / 10期

基金：

国家重点研发计划;

关键词：

词语语义; 词语合并; 词性筛选; 文本相似度;

D O I：

10.19734/j.issn.1001-3695.2018.04.0219

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

120506 [数字人文];

摘要：

利用LDA模型进行文本相似度的计算考虑到了语义特征,但是存在词语数量多、未结合词语语义、未从文本层面挖掘和利用不同类别文本固有的领域间差异的缺点。针对以上问题,提出WMFLDA（词语合并与过滤潜在狄利克雷分布）主题模型。将领域词和近义词进行统一化映射,并根据词性将文本进行过滤,最后再进行主题建模。实验证明,该方法使得建模时词语量大大减少,减少了建模过程的时间消耗,提高了最后的文本聚类的速度。并且与其他文本相似度方法相比,提出的方法在准确度上也有一定程度的提升。

引用

页码：2916 / 2919+2951 +2951

页数：5

共 12 条

[1]

Efficient Hybrid Semantic Text Similarity using Wordnet and a Corpus [J].

Atoum, Issa ;

Otoom, Ahmed .

INTERNATIONAL JOURNAL OF ADVANCED COMPUTER SCIENCE AND APPLICATIONS, 2016, 7 (09) :124-130

[2]

A semantic logic-based approach to determine textual similarity.[J].Eduardo Blanco;Dan Moldovan.IEEE/ACM Transactions on Audio; Speech and Langua.2015, 4

[3]

基于自然语言检索的综合相似度计算算法 [J].