基于N元汉字串模型的文本表示和实时分类的研究与实现

被引:5
作者
王映
常毅
谭建龙
白硕
机构
[1] 中国科学院计算技术研究所软件研究室
关键词
文本分类; 中文信息处理; 向量空间模型; N元汉字串; 关键词匹配;
D O I
暂无
中图分类号
TP391.12 [];
学科分类号
摘要
该文提出了一种基于N元汉字串特征的文本向量空间表示模型,用这个表示模型实现了一个文本实时分类系统。对比使用词语做为特征的文本向量空间模型,这种新的模型由于使用快速的多关键词匹配技术,不使用分词等复杂计算,可以实现实时文本分类。由于N元汉字串的文本表示模型中的特征抽取中不需要使用词典分词,从而可以提取出一些非词的短语结构,在特殊的应用背景,如网络有害信息判别中,能自动提取某些更好的特征项。实验结果表明,使用简单的多关键词匹配和使用复杂的分词,对分类系统的效果影响是很小的。该文的研究表明N元汉字串特征和词特征的表示能力在分类问题上基本是相同的,但是N元汉字串特征的分类系统可以比分词系统的性能高出好几倍。该文还描述了使用这种模型的自动文本分类系统,包括分类系统的结构,特征提取,文本相似度计算公式,并给出了评估方法和实验结果。
引用
收藏
页码:88 / 91
页数:4
相关论文
共 2 条