一种基于语义的中文文本分类算法

被引：4

作者：

赵辉

刘怀亮

范云杰

左晓飞

机构：

[1] 西安电子科技大学经济管理学院

来源：

情报理论与实践 | 2012年 / 03期

关键词：

文本分类; 语义向量空间; 向量空间模型; 语义相似度; 算法;

D O I：

10.16353/j.cnki.1000-7490.2012.03.012

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

081203 ; 0835 ;

摘要：

针对向量空间模型中语义缺失问题,将语义词典(知网)应用到文本分类的过程中以提高文本分类的准确度。对于中文文本中的一词多义现象,提出改进的词汇语义相似度计算方法,通过词义排歧选取义项进行词语的相似度计算,将相似度大于阈值的词语进行聚类,对文本特征向量进行降维,给出基于语义的文本分类算法,并对该算法进行实验分析。结果表明,该算法可有效提高中文文本分类效果。

引用

页码：115 / 118

页数：4

共 6 条

[1] 一种基于知网语义相似度计算的应用研究 [J].

徐猛 ;

刘宗田 ;

周文 .

微计算机信息, 2010, 26 (03) :200-201+206

[2] 基于VSM的文本相似度计算的研究 [J].

郭庆琳 ;

李艳梅 ;

唐琦 .

计算机应用研究, 2008, (11) :3256-3258

[3]

基于《知网》的汉语词语词义消歧方法[J]. 孙继明,李舟军,文健.计算机与信息技术. 2007(03)

[4]

基于《知网》的汉语词语词义消歧方法[J]. 孙继明,李舟军,文健.计算机与信息技术. 2007 (03)

[5]

非结构化数据来袭[N]. 霍娜.中国计算机报. 2011 (024)

[6]

A vector space model for automatic indexing[J] . G. Salton,A. Wong,C. S. Yang.Communications of the ACM . 1975 (11)

← 1 →