基于知网语义相似度计算的特征降维方法研究

被引:16
作者
唐歆瑜 [1 ]
乐文忠 [2 ]
李志成 [3 ]
李军义 [1 ]
机构
[1] 湖南大学计算机与通信学院
[2] 深圳市龙岗科技与信息管理局
[3] 创智信息技术有限公司
关键词
特征降维; 文本分类; 知网;
D O I
暂无
中图分类号
TP391.43 [];
学科分类号
摘要
针对文本分类处理中的高维度问题,结合知网语义词典,提出了一种新的特征降维处理方法。通过计算特征词汇之间的语义相似度,将原有特征集分成若干特征词集;同一词集内的特征词语义彼此间相似;而不同词集的特征词彼此间相似度比较小。将同一特征词集内的词汇权重相加,从而突出同义词以及近义词对文本分类的贡献,并可以大大降低文本比较的特征维数。实验结果表明,利用该方法在文本分类中得到了较好的分类准确率和分类性能。
引用
收藏
页码:3442 / 3446
页数:5
相关论文
共 2 条
[1]   基于向量空间模型的文本自动分类系统的研究与实现 [J].
庞剑锋 ;
卜东波 ;
白硕 .
计算机应用研究, 2001, (09) :23-26
[2]  
陈涛,谢阳群.文本分类中的特征降维方法综述[J].情报学报,2005(06)