基于HowNet的VSM模型扩展在文本分类中的应用研究

被引:8
作者
孙宏纲 [1 ]
陆余良 [1 ]
刘金红 [1 ]
龚笔宏 [2 ]
机构
[1] 合肥电子工程学院教研室
[2] 北京大学网络与分布式实验室
关键词
计算机应用; 中文信息处理; HowNet; VSM模型; 文本分类;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
在采用VSM模型进行文本分类时,如果特征向量维数相差悬殊,会给分类结果产生很大负面影响。为了解决这一问题,本文引入了特征向量扩展的思想,同时定义了有效原始信息浓度的概念。特征向量扩展以HowNet语义词典为依据,对高维和低维特征向量采用不同的扩展策略,从而减小了不同类别语料间有效原始信息浓度的差值,进而改善复杂语料的分类结果。实验表明该方法在复杂语料情况下,通过对特征向量进行HowNet语义扩展,可以较好的改善分类结果。
引用
收藏
页码:101 / 108
页数:8
相关论文
共 9 条
[1]   基于HowNet的词汇语义倾向计算 [J].
朱嫣岚 ;
闵锦 ;
周雅倩 ;
黄萱菁 ;
吴立德 .
中文信息学报, 2006, (01) :14-20
[2]   基于HowNet构造语义场的方法 [J].
王大亮 ;
孙建涛 ;
陆玉昌 ;
夏克俭 ;
王泉德 .
清华大学学报(自然科学版), 2005, (01) :77-80
[3]   网页分类技术 [J].
孙建涛 ;
沈抖 ;
陆玉昌 ;
石纯一 .
清华大学学报(自然科学版), 2004, (01) :65-68
[4]   一种基于向量空间模型的文本分类方法 [J].
李雪蕾 ;
张冬茉 .
计算机工程, 2003, (17) :90-92
[5]   一种基于向量空间模型的多层次文本分类方法 [J].
刘少辉 ;
董明楷 ;
张海俊 ;
李蓉 ;
史忠植 .
中文信息学报, 2002, (03) :8-14+26
[6]   一种用于主题提取的非线性加权方法 [J].
韩客松 ;
王永成 .
情报学报, 2000, (06) :650-653
[7]  
金珠,林鸿飞,赵晶.基于HowNet的话题跟踪及倾向性分类研究[J].情报学报,2005(05)
[8]  
基于改进的贝叶斯模型的中文网页分类器[C]. 秦兵;郑实福;刘挺;张刚;李生.全国第六届计算语言学联合学术会议,1600
[9]  
G. Salton,A. Wong,C. S. Yang.A vector space model for automatic indexing[J].Communications of the ACM,1975