一种基于N-Gram技术的中文文献自动分类方法

被引:15
作者
何浩
杨海棠
机构
[1] 华中师范大学信息管理系
关键词
n-gram; 汉字切分; 哈希码; 文献向量; KMA; 自动分类;
D O I
暂无
中图分类号
G254.1 [分类法];
学科分类号
摘要
本文介绍一种基于n gram技术的、与语言无关的文献分类方法K meansaxiales (KMA) ,及其在中文文献自动分类中的应用。这种方法将文献转换成由n gram(n个连续的字符 )频次构成的向量。为压缩存储空间、提高处理速度 ,我们运用哈希函数将n gram映射为哈希码 ,对文献的分析实际上以哈希码频次为基础运行。采用KMA算法 ,我们对一个中文数据库进行了自动分类的实验研究 ,在比较实验结果的基础上 ,我们对KMA算法初始参数的选择进行了初步探讨。
引用
收藏
页码:421 / 427
页数:7
相关论文
共 1 条
[1]   中国计算机和自然语言处理的新进展 [J].
刘涌泉 .
情报科学, 1987, (01) :64-70+95