结合词性的短文本相似度算法及其在文本分类中的应用

被引:23
作者
黄贤英
李沁东
刘英涛
机构
[1] 重庆理工大学计算机科学与工程学院
关键词
短文本分类; 短文本相似度; 词性; hownet语义; 分类准确率;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
针对基于语义的短文本相似度计算方法在短文本分类中准确率较低这一问题,提出了结合词性的短文本相似度算法(GCSSA)。该方法在基于hownet("知网")语义的短文本相似度计算方法的基础上,结合类别特征词并添加关键词词性分析,对类别特征词和其他关键词的词性信息给定不同关键词以不同的权值系数,以此区别各种贡献度词项在短文本相似度计算中的重要程度。实验表明,该算法进行文本相似度计算后应用于短文本分类中较基于hownet的短文本分类算法在准确率宏平均和微平均上提升4%左右,有效提高了短文本分类的准确性。
引用
收藏
页码:78 / 82
页数:5
相关论文
共 10 条
[1]
基于词项语义映射的短文本相似度算法 [J].
黄贤英 ;
张金鹏 ;
刘英涛 ;
赵明军 .
计算机工程与设计, 2015, 36 (06) :1514-1518+1534
[2]
利用《知网》和领域关键词集扩展方法的短文本分类研究 [J].
李湘东 ;
曹环 ;
丁丛 ;
黄莉 .
现代图书情报技术, 2015, (02) :31-38
[3]
一种最大分类间隔SVDD的多类文本分类算法 [J].
罗琦 .
电讯技术, 2014, 54 (04) :496-499
[4]
一种基于频繁词集的短文本特征扩展方法 [J].
袁满 ;
欧阳元新 ;
熊璋 ;
罗建辉 .
东南大学学报(自然科学版), 2014, 44 (02) :256-260
[5]
一种基于本体的句子相似度计算方法 [J].
刘宏哲 .
计算机科学, 2013, 40 (01) :251-256
[6]
基于维基百科的中文短文本分类研究 [J].
范云杰 ;
刘怀亮 .
现代图书情报技术, 2012, (03) :47-52
[7]
一种基于WordNet的短文本语义相似性算法 [J].
翟延冬 ;
王康平 ;
张东娜 ;
黄岚 ;
周春光 .
电子学报, 2012, 40 (03) :617-620
[8]
基于多特征融合的句子语义相似度计算 [J].
赵臻 ;
吴宁 ;
宋盼盼 .
计算机工程, 2012, 38 (01) :171-173
[9]
中文词语语义相似度计算——基于《知网》2000 [J].
李峰 ;
李芳 .
中文信息学报, 2007, (03) :99-105
[10]
基于WordNet的短文本语义相似性计算研究 [D]. 
张东娜 .
吉林大学,
2010