基于Ngram信息的中文文档分类研究

被引:23
作者
周水庚
关佶红
俞红奇
胡运发
机构
[1] 复旦大学计算机系!上海
[2] 武汉大学计算机学院!武汉
关键词
文档分类; Ngram信息; 属性选择; kNN法;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
传统文档分类系统都是基于文档的词属性 ,分类过程需要庞大的词典支持和复杂的切词处理。本文研究基于N gram信息的中文文档分类 ,使中文文档分类系统摆脱对词典和切词处理的依赖 ,从而实现中文文档分类的领域无关性和时间无关性。利用kNN分类方法 ,实现了一个基于N gram信息的中文文档分类系统。测试结果表明该文档分类系统具有和其它同类文档分类系统相当的性能
引用
收藏
页码:34 / 39
页数:6
相关论文
共 3 条
[1]   中文文献的层次分类方法 [J].
战学刚 ;
林鸿飞 ;
姚天顺 .
中文信息学报, 1999, (06) :20-25
[2]   中文文档自动分类系统的设计与实现 [J].
邹涛 ;
王继成 ;
黄源 ;
张福炎 .
中文信息学报, 1999, (03) :27-33
[3]   基于向量空间模型的文档分类系统 [J].
黄萱菁 ;
吴立德 .
模式识别与人工智能, 1998, 11 (02) :147-153