共 4 条
基于文本分块的多模板隐马尔可夫模型的文本信息抽取
被引:4
作者:
王雷
[1
]
陈治平
[1
]
李志成
[2
]
机构:
[1] 福建工程学院计算机与信息科学系
[2] 创智信息技术有限公司
来源:
关键词:
文本信息抽取;
隐马尔可夫模型;
多模板;
文本分块;
D O I:
暂无
中图分类号:
TP18 [人工智能理论];
学科分类号:
081104 ;
0812 ;
0835 ;
1405 ;
摘要:
针对文本信息抽取中训练数据来源的多样化,不利于学习到最优的模型参数的问题,提出了一种基于多模板隐马尔可夫模型的文本信息抽取算法.新算法利用文本排版格式、分隔符等信息,对文本进行分块,在此基础上,通过对训练数据分成多个形式模板训练隐马尔可夫初始概率及转移概率参数,最后,结合统一训练的释放概率参数,对文本信息进行抽取.实验结果表明,新算法在精确度和召回率指标上比简单隐马尔可夫模型具有更好的性能.
引用
收藏
页码:21 / 24
页数:4
相关论文