基于维基百科的中文短文本分类研究

被引:32
作者
范云杰
刘怀亮
机构
[1] 西安电子科技大学经济管理学院
关键词
短文本; 维基百科; 文本分类; 特征扩展;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
针对中文短文本自身词汇个数少、描述信息弱的缺陷,引入特征扩展的方法辅助分类。借助网络知识库维基百科抽取相关概念,并采用统计规律与类别信息相结合的方式计算概念间相关度,建立语义相关概念集合,对短文本的特征向量进行扩展,从而有效补充短文本的语义特征。对比实验表明,基于维基百科的短文本分类方法能够提高短文本分类的效果。
引用
收藏
页码:47 / 52
页数:6
相关论文
共 9 条