一种基于维基百科的中文短文本分类算法

被引:15
作者
赵辉
刘怀亮
机构
[1] 西安电子科技大学经济与管理学院
关键词
短文本分类; 维基百科; 词义消歧; 特征扩展;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
为解决短文本特征词少、概念信号弱的问题,结合维基百科进行特征扩展以辅助中文短文本分类。通过维基百科概念及链接等信息进行词语相关概念集合抽取、概念间相关度计算,利用消歧页结合短文本上下文信息解决一词多义问题,进而以词语间语义相关关系为基础进行特征扩展,以补充文本特征语义信息。最后,给出基于维基百科的中文短文本分类算法,并对其进行实验验证。结果表明,该算法能有效提高中文短文本分类效果。
引用
收藏
页码:120 / 124
页数:5
相关论文
共 14 条
[1]  
基于关联扩展的中文短文本分类方法研究.[D].曹叶盛.北京邮电大学.2012, 08
[2]   Utilizing high-quality feature extension mode to classify chinese short-text [J].
Fan X. ;
Hu H. .
Journal of Networks, 2010, 5 (12) :1417-1425
[3]   Machine learning in automated text categorization [J].
Sebastiani, F .
ACM COMPUTING SURVEYS, 2002, 34 (01) :1-47
[4]   维基百科知网的构建研究与应用进展 [J].
王兰成 ;
刘晓亮 .
情报资料工作, 2012, (05) :56-60
[5]   一种改进的基于共现关系的短文本特征扩展算法研究 [J].
王细薇 ;
张凯 .
河南城建学院学报, 2012, 21 (04) :48-50
[6]   中文维基百科的结构化信息抽取及词语相关度计算方法 [J].
涂新辉 ;
张红春 ;
周琨峰 ;
何婷婷 .
中文信息学报, 2012, 26 (03) :109-115
[7]   基于维基百科的中文短文本分类研究 [J].
范云杰 ;
刘怀亮 .
现代图书情报技术, 2012, (03) :47-52
[8]   文本自动分类技术研究综述 [J].
庞观松 ;
蒋盛益 .
情报理论与实践, 2012, (02) :123-128
[9]   中文短文本分类方法研究 [J].
王细薇 ;
沈云琴 .
现代计算机(专业版), 2010, (07) :28-31
[10]   利用上下位关系的中文短文本分类 [J].
王盛 ;
樊兴华 ;
陈现麟 .
计算机应用, 2010, 30 (03) :603-606+611