基于主题本体扩展特征的短文本分类

被引:4
作者
湛燕
陈昊
机构
[1] 河北大学数学与计算机学院,河北省机器学习与计算智能重点实验室
关键词
短文本分类; 主题本体; 案例维护;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
短文本具有不同于普通文本的独有特点,例如文本长度较短,特征选择分散不一,这使得短文本文类需要处理这些特殊的问题.本文使用了基于主题本体的特征扩展方法,考虑了特征之间的语义关联,达到了较好的分类性能.同时,通过GC(扩展能力)算法使用了案例维护学习,在K-近邻算法中减少样例个数,从而可以提高搜索近邻样例的效率.数值型实验证明了这种学习算法的有效性.
引用
收藏
页码:307 / 311
页数:5
相关论文
共 7 条
[1]   一种基于WordNet的短文本语义相似性算法 [J].
翟延冬 ;
王康平 ;
张东娜 ;
黄岚 ;
周春光 .
电子学报, 2012, 40 (03) :617-620
[2]   短文本信息流的无监督会话抽取技术 [J].
黄九鸣 ;
吴泉源 ;
刘春阳 ;
张旭 ;
贾焰 ;
周斌 .
软件学报, 2012, 23 (04) :735-747
[3]   大规模短文本的不完全聚类 [J].
彭泽映 ;
俞晓明 ;
许洪波 ;
刘春阳 .
中文信息学报, 2011, 25 (01) :54-59
[4]   基于频繁词集聚类的海量短文分类方法 [J].
王永恒 ;
贾焰 ;
杨树强 .
计算机工程与设计, 2007, (08) :1744-1746+1780
[5]   一种高性能的两类中文文本分类方法 [J].
樊兴华 ;
孙茂松 .
计算机学报, 2006, (01) :124-131
[6]   Machine learning in automated text categorization [J].
Sebastiani, F .
ACM COMPUTING SURVEYS, 2002, 34 (01) :1-47
[7]  
Possibility and Evidence Theory Based Design Optimization:a Survey .2 Haofeng Liang. Seventh International Conference on Fuzzy Systems and Knowledge Discovery . 2010