基于隐马尔可夫模型的文本分类算法

被引:34
作者
杨健 [1 ,2 ]
汪海航 [1 ]
机构
[1] 同济大学电子与信息工程学院
[2] 大理学院数学与计算机学院
关键词
文本分类; 隐马尔可夫模型; 信息增益; χ2检验; 词频—反文档频率;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
自动文本分类领域近年来已经产生了若干成熟的分类算法,但这些算法主要基于概率统计模型,没有与文本自身的语法和语义建立起联系。提出了将隐马尔可夫序列分析模型(HMM)用于自动文本分类的算法,首先构造表示文档类别的特征词集合,并以文档类别的特征词序列作为不同HMM分类器的观察序列,而HMM的状态转换序列则隐含地表示了不同类别文档内容的形成演化过程。分类时,具有最大生成概率的HMM分类器类标即为测试文档的分类结果。该算法构造的分类器模型一定程度上体现了不同类别文档的语法和语义特征,并可以实现多类别的自动文本分类,分类效率较高。
引用
收藏
页码:2348 / 2350+2361 +2361
页数:4
相关论文
共 10 条
[1]
Hidden markov models for text categorization in multi-page documents [J].
Frasconi, P ;
Soda, G ;
Vullo, A .
JOURNAL OF INTELLIGENT INFORMATION SYSTEMS, 2002, 18 (2-3) :195-217
[2]
混合遗传算法和隐马尔可夫模型的Web信息抽取 [J].
肖基毅 ;
邹腊梅 ;
李传琦 .
计算机工程与应用 , 2008, (18) :132-135
[3]
基于多模板隐马尔可夫模型的文本信息抽取算法 [J].
胡宇舟 ;
王雷 ;
顾学道 .
计算机应用, 2008, (03) :699-702
[4]
基于二阶隐马尔可夫模型的文本信息抽取 [J].
周顺先 ;
林亚平 ;
王耀南 ;
易叶青 .
电子学报, 2007, (11) :2226-2231
[5]
一种集成NER的文本分类特征选择方法 [J].
施德明 ;
林洋港 ;
陈恩红 .
计算机工程与科学, 2007, (11) :152-156
[6]
基于隐Markov模型的文本分类 [J].
罗双虎 ;
欧阳为民 .
计算机工程与应用, 2007, (30) :179-181+227
[7]
基于主动学习隐马尔可夫模型的文本信息抽取 [J].
周顺先 ;
林亚平 ;
王耀南 .
湖南大学学报(自然科学版), 2007, (06) :74-77
[8]
一种启发式的信息抽取算法 [J].
吴芬芬 ;
刘磊 ;
肖宪 .
吉林大学学报(理学版), 2007, (01) :73-76
[9]
基于文本分块的多模板隐马尔可夫模型的文本信息抽取 [J].
王雷 ;
陈治平 ;
李志成 .
山东大学学报(理学版), 2006, (03) :21-24
[10]
基于隐马尔可夫模型的文本信息抽取 [J].
刘云中 ;
林亚平 ;
陈治平 .
系统仿真学报, 2004, (03) :507-510