共 2 条
网络文本分类中基于信息瓶颈的特征提取
被引:9
作者:
贺一帆
江铭虎
机构:
[1] 清华大学人文学院计算语言学实验室
关键词:
文本分类;
特征提取;
信息瓶颈法;
D O I:
10.16511/j.cnki.qhdxxb.2010.01.027
中图分类号:
TP391.1 [文字信息处理];
学科分类号:
摘要:
针对网络文本特征关键词多、新词多的特点,提出了一种基于概念特征的文本分类提取方法。应用信息瓶颈法,根据关键词在不同类标号上的分布情况完成关键词聚类。在此基础上,结合概念抽取的方法,将词聚类结果映射到知网义原,并以此作为分类特征。在网络文本语料上的分类实验显示,该方法保留了基于概念特征提取方法的鲁棒性强、特征维数低的优点,但克服了概念词典中新词无定义,需要维护更新词典的不足。
引用
收藏
页码:45 / 48+53
+53
页数:5
相关论文