基于Word2vector的文本特征化表示方法

被引:21
作者
周顺先 [1 ]
蒋励 [1 ,2 ]
林霜巧 [2 ]
龚德良 [1 ]
王鲁达 [1 ]
机构
[1] 湘南学院软件与通信工程学院
[2] 中南大学信息科学与工程学院
关键词
Word2vector; 上下文关系; 特征化表示; 文本分类;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
针对基于词语统计的特征化表示无法有效提取文本的词义特征的问题,提出一种基于上下文关系的文本特征化表示方法。该方法利用Word2vector提取词义特征,获得词向量;再对词向量进行"最优适应度划分"的聚类,并根据聚类结果将词语替代表示为聚类质心;根据质心及其所代表的词语的词频,构成词向量聚类质心频率模型(semantic frequency-inverse document frequency,SF-IDF),用于特征化表示文本。在不依赖语义规则的情况下,分别以路透社文本集Reuter-21578、维基百科(extensible markup language,XML)数据为文本数据集,采用神经网络语言模型(neural network language model,NNLM)算法进行文本分类实验,并采用F1-measure标准进行样本分类的效果评估,词向量聚类质心频率模型SF-IDF(semantic frequency-inverse document frequency,SF-IDF)向量与现有技术中词频-逆向文件频率(term frequency-inverse document frequency,TF-IDF)向量的分类效果对比,与TF-IDF模型进行对比实验;在Reuter-21578数据集上平均准确率由原有的57.1%提高到63.3%,在Wikipedia XML数据集上平均准确率由原有的48.7%提高到59.2%。SF-IDF模型可适用于现行的基于特征向量的信息检索算法,且较TF-IDF模型有更高的文本相似性分析效率,可提升文本分类准确率。
引用
收藏
页码:272 / 279
页数:8
相关论文
共 6 条
  • [1] Mining microblog user interests based on TextRank with TF-IDF factor[J]. Tu Shouzhong,Huang Minlie.The Journal of China Universities of Posts and Telecommunications. 2016(05)
  • [2] 基于Word2Vec的一种文档向量表示
    唐明
    朱磊
    邹显春
    [J]. 计算机科学, 2016, 43 (06) : 214 - 217+269
  • [3] 一种融入用户点击模型Word2Vec查询词聚类
    杨河彬
    贺樑
    杨静
    [J]. 小型微型计算机系统, 2016, 37 (04) : 676 - 681
  • [4] Knowledge-based vector space model for text clustering
    Jing, Liping
    Ng, Michael K.
    Huang, Joshua Z.
    [J]. KNOWLEDGE AND INFORMATION SYSTEMS, 2010, 25 (01) : 35 - 55
  • [5] A comparative study of TF*IDF, LSI and multi-words for text classification[J] . Wen Zhang,Taketoshi Yoshida,Xijin Tang.Expert Systems With Applications . 2010 (3)
  • [6] Neighbor-weighted K-nearest neighbor for unbalanced text corpus
    Tan, SB
    [J]. EXPERT SYSTEMS WITH APPLICATIONS, 2005, 28 (04) : 667 - 671