一种基于词义和词频的向量空间模型改进方法

被引:16
作者
邓晓衡
杨子荣
关培源
机构
[1] 中南大学软件学院
关键词
文本分类; 特征选择; 卡方分布; 向量空间模型;
D O I
10.19734/j.issn.1001-3695.2017.12.0752
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
文本内容较多时,传统的向量空间模型(VSM)建模可能产生维数爆炸现象,效率低下且难以保证分类效果。针对VSM高维现象,利用词义和词频降低文本建模维度的方法提高效率和准确度,提出一种多义词判别优化的同义词聚类方法,结合上下文判别多义词的词义后,根据特征项词义相似度进行加权,合并词义相近的特征项。新方法使特征向量维度大大降低,多义词判别提高了文本特征提取的准确性。与其他文本特征提取和文本分类方法进行比较,结果表明,该算法在效率和准确度上有明显提高。
引用
收藏
页码:1390 / 1395
页数:6
相关论文
共 8 条
  • [1] 基于粗糙集理论的文本分类属性约简算法[J].韩玉,李美聪,郭新辰. 东北电力大学学报.2016(05)
  • [2] 基于聚类改进的KNN文本分类算法[J].周庆平,谭长庚,王宏君,湛淼湘. 计算机应用研究.2016(11)
  • [3] 一种基于词频信息的改进CHI文本特征选择[J].刘海峰,苏展,刘守生. 计算机工程与应用.2013(22)
  • [4] 集合CHI与IG的特征选择方法[J].王光,邱云飞,史庆伟. 计算机应用研究.2012(07)
  • [5] 基于方差的CHI特征选择方法[J].邱云飞,王威,刘大有,邵良杉. 计算机应用研究.2012(04)
  • [6] 文本分类中改进型CHI特征选择方法的研究[J].裴英博,刘晓霞. 计算机工程与应用.2011(04)
  • [7] 基于χ~2统计的文本分类特征选择方法的研究[J].熊忠阳,张鹏招,张玉芳. 计算机应用.2008(02)
  • [8] 基于向量空间模型的本地搜索引擎的设计与实现[D].毛晓刚.吉林大学.2016