基于语义与最大匹配度的短文本分类研究

被引：15

作者：

孙建旺

吕学强

张雷瀚

机构：

[1] 北京信息科技大学网络文化与数字传播北京市重点实验室

来源：

计算机工程与设计 | 2013年 / 34卷 / 10期

基金：

北京市自然科学基金;

关键词：

短文本分类; 义原相似度; 词语相似度; 语义; 最大匹配度; KNN算法;

D O I：

10.16208/j.issn1000-7024.2013.10.048

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

081203 ; 0835 ;

摘要：

为了解决基于VSM方法在进行短文本分类时存在的严重数据稀疏问题,提出了基于语义与最大匹配度的短文本分类方法。以《知网》为知识源,设计了基于义原距离、义原深度与区域密度的义原相似度计算方法,实现基于词类的词语相似度计算;提出了基于语义与最大匹配度的方法计算短文本相似度,应用KNN算法进行短文本分类。实验结果表明,该方法与基于语义、基于ADNB等方法相比,正确率、召回率和F值均得到了明显的提高。

引用

页码：3613 / 3618

页数：6

共 5 条

[1] 基于半监督学习的短文本分类方法 [J].