基于广义隐马尔可夫模型的网页信息抽取方法

被引:3
作者
王静
姚勇
刘志镜
机构
[1] 西安电子科技大学计算机学院
关键词
基于视觉的网页分割; 广义隐马尔可夫模型; 二阶Markov链; Web信息抽取;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
针对网页所特有的基于版面结构的特点,利用基于视觉的网页分割算法VIPS对网页分块,得到一种新的状态转移序列,取代了传统的状态转移序列。通过二阶Markov链改进广义隐马尔可夫模型(GHMM)的状态转移和输出观测值假设条件,提出了二阶的广义隐马尔可夫模型。最后通过实验说明改进的GHMM对于网页信息抽取有很高的精确率。
引用
收藏
页码:49 / 52
页数:4
相关论文
共 6 条
[1]   基于文本分块的多模板隐马尔可夫模型的文本信息抽取 [J].
王雷 ;
陈治平 ;
李志成 .
山东大学学报(理学版), 2006, (03) :21-24
[2]   基于隐马尔可夫模型的文本信息抽取 [J].
刘云中 ;
林亚平 ;
陈治平 .
系统仿真学报, 2004, (03) :507-510
[3]  
VIPS:a vision based page seg-mentation algorithm. CAI D,YU S,WEN J,et al. Microsoft Technical Report . 2003
[4]  
Detecting Web contentfunction using generalized hidden Markov model. CHEN Jinlin,Ping Zhong,Terry Cook. IEEEProceedings of the 5thInternational Conference on Machine Le-arning and Applications . 2006
[5]  
The viterbi algorithm. FORNEY D. Proceedings of the IEEE . 1973
[6]   基于标记窗的网页正文信息提取方法 [J].
赵欣欣 ;
索红光 ;
刘玉树 .
计算机应用研究, 2007, (03) :144-145+180