一种基于频繁词集的短文本特征扩展方法

被引:14
作者
袁满
欧阳元新
熊璋
罗建辉
机构
[1] 北京航空航天大学计算机学院
[2] 北京航空航天大学深圳研究院
基金
国家高技术研究发展计划(863计划); 中央高校基本科研业务费专项资金资助;
关键词
频繁项目集; 短文本分类; 特征扩展;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
为了解决向量空间模型(VSM)对短文本内容表示能力不足的问题,提出了一种基于频繁词集的特征扩展方法.定义了单词间的共现关系和类别同向关系,通过计算单词集的支持度和置信度,挖掘出具有相同类别倾向的频繁词集,并将其作为短文本特征扩展的背景知识库.对于短文本中的每个原始单词,从背景知识库中查找包含有该单词的频繁词集,将其作为扩展特征加入原特征向量中.搜狗语料集上的实验结果表明,置信度和支持度对背景知识库的规模有较大的影响,但是扩展过多的特征存在冗余性,对分类效果没有进一步的提升.基于频繁词集构建的短文本背景知识库可以作为有效的扩展特征;当训练文本数较为有限时,特征扩展对支持向量机SVM的分类效果有显著的提升.
引用
收藏
页码:256 / 260
页数:5
相关论文
共 5 条
  • [1] A Survey of Text Mining Techniques and Applications[J] . Vishal Gupta,Gurpreet S. Lehal.Journal of Emerging Technologies in Web Intelligence . 2009 (1)
  • [2] Word sense disambiguation[J] . Roberto Navigli.ACM Computing Surveys (CSUR) . 2009 (2)
  • [3] Text classification based on multi-word with support vector machine
    Zhang, Wen
    Yoshida, Taketoshi
    Tang, Xijin
    [J]. KNOWLEDGE-BASED SYSTEMS, 2008, 21 (08) : 879 - 886
  • [4] Frequent pattern mining: current status and future directions[J] . Jiawei Han,Hong Cheng,Dong Xin,Xifeng Yan.Data Mining and Knowledge Discovery . 2007 (1)
  • [5] Hhmm-based Chinese lexical analyzer ICTCLAS .2 Zhang H,Yu H,Xiong D,Liu Q. Proceedings of the 2nd SIGHAN Workshop on Chinese Language Processing . 2003