基于知网语义相似度计算的特征降维方法研究

被引：16

作者：

唐歆瑜 ^{[1
]}

乐文忠 ^{[2
]}

李志成 ^{[3
]}

李军义 ^{[1
]}

机构：

[1] 湖南大学计算机与通信学院

[2] 深圳市龙岗科技与信息管理局

[3] 创智信息技术有限公司

来源：

科学技术与工程 | 2006年 / 21期

关键词：

特征降维; 文本分类; 知网;

D O I：

暂无

中图分类号：

TP391.43 [];

学科分类号：

摘要：

针对文本分类处理中的高维度问题,结合知网语义词典,提出了一种新的特征降维处理方法。通过计算特征词汇之间的语义相似度,将原有特征集分成若干特征词集;同一词集内的特征词语义彼此间相似;而不同词集的特征词彼此间相似度比较小。将同一特征词集内的词汇权重相加,从而突出同义词以及近义词对文本分类的贡献,并可以大大降低文本比较的特征维数。实验结果表明,利用该方法在文本分类中得到了较好的分类准确率和分类性能。

引用

页码：3442 / 3446

页数：5