结合语义的特征权重计算方法研究

被引:20
作者
任姚鹏
陈立潮
张英俊
袁英
机构
[1] 太原科技大学计算机科学与技术学院
关键词
文本聚类; 向量空间模型; 权重计算方法; 词汇语义相似度; 知网;
D O I
10.16208/j.issn1000-7024.2010.10.022
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
为进一步改善目前大多数基于向量空间模型(VSM)的文本聚类算法的效果,研究了文本聚类的基础和关键环节——文本间相似度的计算,其中一个重要步骤就是计算各文本中特征词的权重,该计算的合理性和有效性直接影响到文本相似度的准确性和聚类的效果。传统的VSM特征权重计算方法——TF-IDF,没有考虑语义相似的词语在文本集中的分布情况,针对该问题,在基于"知网"的词语语义相似度分析基础上,提出了一种改进的TF-IDF权重计算方法。实验结果表明,该算法是有效可行的,且在一定程度上提高了文本聚类的查准率和查全率。
引用
收藏
页码:2381 / 2383+2387 +2387
页数:4
相关论文
共 8 条
[1]  
文本检索中若干问题研究.[D].王秀娟.北京邮电大学.2006, 11
[2]  
基于分词的中文文本相似度计算研究.[D].沈斌.天津财经大学.2006, 09
[3]   基于VSM的文本相似度计算的研究 [J].
郭庆琳 ;
李艳梅 ;
唐琦 .
计算机应用研究, 2008, (11) :3256-3258
[4]   一种基于TFIDF方法的中文关键词抽取算法 [J].
徐文海 ;
温有奎 .
情报理论与实践, 2008, (02) :298-302
[5]   文本分类中词语权重计算方法的改进与应用 [J].
熊忠阳 ;
黎刚 ;
陈小莉 ;
陈伟 .
计算机工程与应用, 2008, (05) :187-189
[6]   基于文本分类TFIDF方法的改进与应用 [J].
张玉芳 ;
彭时名 ;
吕佳 .
计算机工程, 2006, (19) :76-78
[7]   基于词频差异的特征选取及改进的TF-IDF公式 [J].
罗欣 ;
夏德麟 ;
晏蒲柳 .
计算机应用, 2005, (09) :2031-2033
[8]   文本自动分类中特征权重算法的改进研究 [J].
徐凤亚 ;
罗振声 .
计算机工程与应用, 2005, (01) :181-184+220