一种基于语义的中文文本分类算法

被引:4
作者
赵辉
刘怀亮
范云杰
左晓飞
机构
[1] 西安电子科技大学经济管理学院
关键词
文本分类; 语义向量空间; 向量空间模型; 语义相似度; 算法;
D O I
10.16353/j.cnki.1000-7490.2012.03.012
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
针对向量空间模型中语义缺失问题,将语义词典(知网)应用到文本分类的过程中以提高文本分类的准确度。对于中文文本中的一词多义现象,提出改进的词汇语义相似度计算方法,通过词义排歧选取义项进行词语的相似度计算,将相似度大于阈值的词语进行聚类,对文本特征向量进行降维,给出基于语义的文本分类算法,并对该算法进行实验分析。结果表明,该算法可有效提高中文文本分类效果。
引用
收藏
页码:115 / 118
页数:4
相关论文
共 6 条
[1]   一种基于知网语义相似度计算的应用研究 [J].
徐猛 ;
刘宗田 ;
周文 .
微计算机信息, 2010, 26 (03) :200-201+206
[2]   基于VSM的文本相似度计算的研究 [J].
郭庆琳 ;
李艳梅 ;
唐琦 .
计算机应用研究, 2008, (11) :3256-3258
[3]  
基于《知网》的汉语词语词义消歧方法[J]. 孙继明,李舟军,文健.计算机与信息技术. 2007(03)
[4]  
基于《知网》的汉语词语词义消歧方法[J]. 孙继明,李舟军,文健.计算机与信息技术. 2007 (03)
[5]  
非结构化数据来袭[N]. 霍娜.中国计算机报. 2011 (024)
[6]  
A vector space model for automatic indexing[J] . G. Salton,A. Wong,C. S. Yang.Communications of the ACM . 1975 (11)