基于语义与最大匹配度的短文本分类研究

被引:15
作者
孙建旺
吕学强
张雷瀚
机构
[1] 北京信息科技大学网络文化与数字传播北京市重点实验室
基金
北京市自然科学基金;
关键词
短文本分类; 义原相似度; 词语相似度; 语义; 最大匹配度; KNN算法;
D O I
10.16208/j.issn1000-7024.2013.10.048
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
为了解决基于VSM方法在进行短文本分类时存在的严重数据稀疏问题,提出了基于语义与最大匹配度的短文本分类方法。以《知网》为知识源,设计了基于义原距离、义原深度与区域密度的义原相似度计算方法,实现基于词类的词语相似度计算;提出了基于语义与最大匹配度的方法计算短文本相似度,应用KNN算法进行短文本分类。实验结果表明,该方法与基于语义、基于ADNB等方法相比,正确率、召回率和F值均得到了明显的提高。
引用
收藏
页码:3613 / 3618
页数:6
相关论文
共 5 条
[1]   基于半监督学习的短文本分类方法 [J].
孙学琛 ;
高志强 ;
全志斌 ;
施嘉鸿 .
山东理工大学学报(自然科学版), 2012, 26 (01) :1-4
[2]   基于领域词语本体的短文本分类 [J].
宁亚辉 ;
樊兴华 ;
吴渝 .
计算机科学, 2009, 36 (03) :142-145
[3]   一种基于特征扩展的中文短文本分类方法 [J].
王细薇 ;
樊兴华 ;
赵军 .
计算机应用, 2009, 29 (03) :843-845
[4]   求最长公共子串问题的算法分析 [J].
张毅超 ;
车玫 ;
马骏 .
计算机仿真, 2007, (12) :97-100+116
[5]  
基于《〈知网〉》词汇语义相关度计算的消歧方法[J]. 李生琦,田巧燕,汤承.情报学报. 2009 (05)