基于混合条件模型的Web信息抽取

被引:2
作者
肖基毅
朱道辉
邹腊梅
机构
[1] 南华大学计算机科学与技术学院
基金
湖南省自然科学基金;
关键词
Web信息抽取; 最大熵马尔可夫模型; 条件模型; 最大熵; 隐马尔可夫模型;
D O I
暂无
中图分类号
TP181 [自动推理、机器学习];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ;
摘要
针对传统Web信息抽取的隐马尔可夫模型对初值十分敏感和在实际训练中极易得到局部最优模型参数,提出了一种最大熵和最大熵马尔可夫模型相结合的条件模型.该方法对输入的Web页面进行解析并构建HTML树,通过计算HTML子树结点的熵定位数据域,允许观察值表示任意重叠特征(像词、大写、HTML标记、语义)和定义状态序列给予观察序列的条件概率实现了Web信息抽取.实验结果表明,新的方法在精确度和召回率指标上比传统隐马尔可夫模型和最大熵马尔可夫模型具有更好的性能.
引用
收藏
页码:52 / 55
页数:4
相关论文
共 2 条
[1]   基于最大熵的隐马尔可夫模型文本信息抽取 [J].
林亚平 ;
刘云中 ;
周顺先 ;
陈治平 ;
蔡立军 .
电子学报, 2005, (02) :236-240
[2]   基于隐马尔可夫模型的文本信息抽取 [J].
刘云中 ;
林亚平 ;
陈治平 .
系统仿真学报, 2004, (03) :507-510