基于概念树的文本自动分类系统的研究与实现

被引:10
作者
熊亮
机构
[1] 中国科学院声学研究所北京
关键词
文本分类; 概念树; 概念层次网络;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
该文分类是信息处理的重要研究方向,现在应用较多的都是基于统计的分类系统,本文介绍了一种新型的文本分类理念,通过概念符号化,使用数字化的概念而非词汇来组成特征项,能最大限度地保留文本信息,且不需要训练语料,能灵活适应不同的分类体系。接下来详细描述了领域特征信息提取的4个步骤,以及分类体系的选取与设计。最后给出了实验的测试数据,并对影响性能的一些关键因素进行了分析,指出了进一步提高分类性能的途径。
引用
收藏
页码:6 / 9+88 +88
页数:5
相关论文
共 3 条
[1]
第二届HNC与语言学研讨会论文集.[M].苗传江; 杜燕玲; 主编.海洋出版社.2004,
[2]
HNC与语言学研究.[M].张全;萧国政主编;.武汉理工大学出版社.2001,
[3]
HNC(概念层次网络)理论.[M].黄曾阳著;.清华大学出版社.1998,