基于文本分块的多模板隐马尔可夫模型的文本信息抽取

被引:4
作者
王雷 [1 ]
陈治平 [1 ]
李志成 [2 ]
机构
[1] 福建工程学院计算机与信息科学系
[2] 创智信息技术有限公司
关键词
文本信息抽取; 隐马尔可夫模型; 多模板; 文本分块;
D O I
暂无
中图分类号
TP18 [人工智能理论];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ;
摘要
针对文本信息抽取中训练数据来源的多样化,不利于学习到最优的模型参数的问题,提出了一种基于多模板隐马尔可夫模型的文本信息抽取算法.新算法利用文本排版格式、分隔符等信息,对文本进行分块,在此基础上,通过对训练数据分成多个形式模板训练隐马尔可夫初始概率及转移概率参数,最后,结合统一训练的释放概率参数,对文本信息进行抽取.实验结果表明,新算法在精确度和召回率指标上比简单隐马尔可夫模型具有更好的性能.
引用
收藏
页码:21 / 24
页数:4
相关论文
共 4 条
[1]   基于最大熵的隐马尔可夫模型文本信息抽取 [J].
林亚平 ;
刘云中 ;
周顺先 ;
陈治平 ;
蔡立军 .
电子学报, 2005, (02) :236-240
[2]   一种改进的自适应文本信息过滤模型 [J].
马亮 ;
陈群秀 ;
蔡莲红 .
计算机研究与发展, 2005, (01) :79-84
[3]   基于隐马尔可夫模型的文本信息抽取 [J].
刘云中 ;
林亚平 ;
陈治平 .
系统仿真学报, 2004, (03) :507-510
[4]   一种基于Markov链模型的动态聚类方法 [J].
邢永康 ;
马少平 ;
不详 .
计算机研究与发展 , 2003, (02) :129-135