网络文本分类中基于信息瓶颈的特征提取

被引:9
作者
贺一帆
江铭虎
机构
[1] 清华大学人文学院计算语言学实验室
关键词
文本分类; 特征提取; 信息瓶颈法;
D O I
10.16511/j.cnki.qhdxxb.2010.01.027
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
针对网络文本特征关键词多、新词多的特点,提出了一种基于概念特征的文本分类提取方法。应用信息瓶颈法,根据关键词在不同类标号上的分布情况完成关键词聚类。在此基础上,结合概念抽取的方法,将词聚类结果映射到知网义原,并以此作为分类特征。在网络文本语料上的分类实验显示,该方法保留了基于概念特征提取方法的鲁棒性强、特征维数低的优点,但克服了概念词典中新词无定义,需要维护更新词典的不足。
引用
收藏
页码:45 / 48+53 +53
页数:5
相关论文
共 2 条
[1]   中文时间信息的TIMEX2自动标注 [J].
林静 ;
曹德芳 ;
苑春法 .
清华大学学报(自然科学版), 2008, (01) :117-120
[2]   Machine learning in automated text categorization [J].
Sebastiani, F .
ACM COMPUTING SURVEYS, 2002, 34 (01) :1-47