网络文本分类中基于信息瓶颈的特征提取

被引：9

作者：

贺一帆

江铭虎

机构：

[1] 清华大学人文学院计算语言学实验室

来源：

清华大学学报(自然科学版) | 2010年 / 50卷 / 01期

关键词：

文本分类; 特征提取; 信息瓶颈法;

D O I：

10.16511/j.cnki.qhdxxb.2010.01.027

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

摘要：

针对网络文本特征关键词多、新词多的特点,提出了一种基于概念特征的文本分类提取方法。应用信息瓶颈法,根据关键词在不同类标号上的分布情况完成关键词聚类。在此基础上,结合概念抽取的方法,将词聚类结果映射到知网义原,并以此作为分类特征。在网络文本语料上的分类实验显示,该方法保留了基于概念特征提取方法的鲁棒性强、特征维数低的优点,但克服了概念词典中新词无定义,需要维护更新词典的不足。

引用

页码：45 / 48+53 +53

页数：5