基于关键短语的文本分类研究

被引:14
作者
刘华
机构
[1] 暨南大学华文学院海外华语研究中心
关键词
计算机应用; 中文信息处理; 文本分类; 关键短语; 文本表示; 特征项;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
文本分类的进一步改进除了算法方面,应该还立足于影响文本分类最底层、最根本的因素:文本表示中的特征项,提高特征项的完整独立程度。关键短语是具有强文本表示功能的特征短语,在表示文本时,能将文本的内容特征(如主题类别)鲜明地表示出来。关键短语具有结构稳定、语义完整和较强统计意义的特点,能克服向量空间模型和贝叶斯假设的缺点,更适合作为文本表示的特征,有利于提高文本分类的效果。本文从语言学、认知心理学和言语习得、计算语言学等方面寻求关键短语优势的理论依据,对关键短语进行了界定,通过抽取网页上专家标引的关键词获得关键短语。在约3万篇测试集上(共15个大类,244个小类),与以词为特征的文本分类相比,以关键短语为特征的文本分类的大类微平均提高了3.1%,小类微平均提高了15%。
引用
收藏
页码:34 / 41
页数:8
相关论文
共 14 条
[1]   一种快速获取领域新词语的新方法 [J].
刘华 .
中文信息学报, 2006, (05) :17-23
[2]   基于核方法的潜在语义文本分类模型 [J].
罗远胜 ;
王明文 ;
曾雪强 .
清华大学学报(自然科学版), 2005, (S1) :1853-1856
[3]   一种文本分类的在线SVM学习算法 [J].
代六玲 ;
黄河燕 ;
陈肇雄 .
中文信息学报, 2005, (05) :11-15+23
[4]   基于N元汉字串模型的文本表示和实时分类的研究与实现 [J].
王映 ;
常毅 ;
谭建龙 ;
白硕 .
计算机工程与应用, 2005, (05) :88-91
[5]   基于N元语言模型的文本分类方法 [J].
周新栋 ;
王挺 .
计算机应用, 2005, (01) :11-13+16
[6]   基于词关联语义的文本分类研究 [J].
党齐民 ;
吕冬煜 .
计算机应用, 2004, (04) :62-63+66
[7]   文本分类实现技术 [J].
王灏 ;
黄厚宽 ;
田盛丰 .
广西师范大学学报(自然科学版), 2003, (01) :173-179
[8]   基于向量空间模型的文本自动分类系统的研究与实现 [J].
庞剑锋 ;
卜东波 ;
白硕 .
计算机应用研究, 2001, (09) :23-26
[9]   基于字频向量的中文文本自动分类系统 [J].
王梦云 ;
曹素青 .
情报学报, 2000, (06) :644-649
[10]   基于汉字字频向量的中文文本自动分类系统 [J].
曹素丽 ;
曾伏虎 ;
曹焕光 .
山西大学学报(自然科学版), 1999, (02) :44-49