基于隐马尔可夫模型的文本分类算法

被引：34

作者：

杨健 ^{[1
,2
]}

汪海航 ^{[1
]}

机构：

[1] 同济大学电子与信息工程学院

[2] 大理学院数学与计算机学院

来源：

计算机应用 | 2010年 / 30卷 / 09期

关键词：

文本分类; 隐马尔可夫模型; 信息增益; χ2检验; 词频—反文档频率;

D O I：

暂无

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

120506 [数字人文];

摘要：

自动文本分类领域近年来已经产生了若干成熟的分类算法,但这些算法主要基于概率统计模型,没有与文本自身的语法和语义建立起联系。提出了将隐马尔可夫序列分析模型(HMM)用于自动文本分类的算法,首先构造表示文档类别的特征词集合,并以文档类别的特征词序列作为不同HMM分类器的观察序列,而HMM的状态转换序列则隐含地表示了不同类别文档内容的形成演化过程。分类时,具有最大生成概率的HMM分类器类标即为测试文档的分类结果。该算法构造的分类器模型一定程度上体现了不同类别文档的语法和语义特征,并可以实现多类别的自动文本分类,分类效率较高。

引用

页码：2348 / 2350+2361 +2361

页数：4

共 10 条

[1]

Hidden markov models for text categorization in multi-page documents [J].