基于汉字字频向量的中文文本自动分类系统

被引:4
作者
曹素丽
曾伏虎
曹焕光
机构
[1] 太原电信局
[2] 山西大学计算机科学系
关键词
文本分类,中文文本自动分类,字频向量,基于实例的映射函数,语料库,汉字;
D O I
暂无
中图分类号
TP391.43 [];
学科分类号
0811 ; 081101 ; 081104 ; 1405 ;
摘要
提出了一种根据汉字统计特性和基于实例映射的中文文本自动分类方法。该方法采用汉字字频向量作为文本的表示方法。它的显著特点是引入线性最小二乘方估计(LinearLeastSquareFil,LLSF)技术建立文本分类器模型,通过对训练集语料的手工分类标引以及对文本和类别间的相关性判定的学习,实现了基于全局最小错误率的汉字———类别两个向量空间的映射函数,并用该函数对测试文本进行分类
引用
收藏
页码:44 / 49
页数:6
相关论文
共 1 条
[1]   一个中文文本自动分类数学模型 [J].
曹素青 ;
曾伏虎 ;
曹焕光 .
情报学报, 1999, (01) :27-32