基于隐Markov模型的文本分类

被引:11
作者
罗双虎
欧阳为民
机构
[1] 上海大学计算机科学与工程学院
关键词
隐马尔可夫; 文本分类; 序列模型;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
把基于序列模型的隐Markov模型引入文本分类领域。把待分类文本描述成一系列状态演化的隐Markov过程,其中状态以特定的概率产生代表文本的特征项。用序列模式来描述文本类,文本序列通过与隐Markov模型的匹配,求出其对应状态序列和最大输出概率。比较各个文本类的结果,达到文本分类的目的。最后通过和简单向量算法,KNN,Naive Bayes分类算法的比较,说明本算法的在文本分类中的成功应用。
引用
收藏
页码:179 / 181+227 +227
页数:4
相关论文
共 2 条
[1]
Hidden markov models for text categorization in multi-page documents [J].
Frasconi, P ;
Soda, G ;
Vullo, A .
JOURNAL OF INTELLIGENT INFORMATION SYSTEMS, 2002, 18 (2-3) :195-217
[2]
Text classification from labeled and unlabeled documents using EM [J].
Nigam, K ;
McCallum, AK ;
Thrun, S ;
Mitchell, T .
MACHINE LEARNING, 2000, 39 (2-3) :103-134