基于序列的文本自动分类算法

被引:31
作者
解冲锋
李 星
机构
[1] 清华大学电子工程系
[2] 清华大学电子工程系 北京
[3] 北京
关键词
序列; 概念节点; 自动分类; 相关度;
D O I
10.13328/j.cnki.jos.2002.04.045
中图分类号
TP393.01 [];
学科分类号
摘要
提出了一种基于序列的文本自动分类算法.该算法利用了文本中两个层次的语义相关性:句子(子模式)之间的相关性和句子内代表特定含义的关键词(概念节点)之间的相关性,这样就实现了对关键词的动态加权.对于不含有关键词的子模式,采用Markov模型来对其信号幅度进行估计,从而生成一个待分类文本的特征序列.在中文文本分类实验中,可以达到83%的BEP值.此外,该算法在实际系统中容易实现.
引用
收藏
页码:783 / 789
页数:7
相关论文
共 1 条
  • [1] 信号检测与估计[M]. - 电子工业出版社 , 向敬成等 编, 1994