基于概率模型的Web信息抽取

被引:4
作者
王静
刘志镜
机构
[1] 西安电子科技大学计算机学院
关键词
Web对象; 条件随机场(CRFs); 信息抽取(IE);
D O I
10.16451/j.cnki.issn1003-6059.2010.06.017
中图分类号
TP393.09 [];
学科分类号
080402 ;
摘要
针对Web网页的二维结构和内容的特点,提出一种树型结构分层条件随机场(TH-CRFs)来进行Web对象的抽取.首先,从网页结构和内容两个方面使用改进多特征向量空间模型来表示网页的特征;第二,引入布尔模型和多规则属性来更好地表示Web对象结构与语义的特征;第三,利用TH-CRFs来进行Web对象的信息提取,从而找出相关的招聘信息并优化模型训练的效率.通过实验并与现有的Web信息抽取模型对比,结果表明,基于TH-CRFs的Web信息抽取的准确率已有效改善,同时抽取的时间复杂度也得到降低.
引用
收藏
页码:847 / 855
页数:9
相关论文
共 3 条
[1]   Soft pattern matching models for definitional question answering [J].
Cui, Hang ;
Kan, Min-Yen ;
Chua, Tatseng .
ACM TRANSACTIONS ON INFORMATION SYSTEMS, 2007, 25 (02)
[2]  
Mining knowledge from text using information extraction[J] . Raymond J. Mooney,Razvan Bunescu.ACM SIGKDD Explorations Newsletter . 2005 (1)
[3]  
A vector space model for automatic indexing[J] . G. Salton,A. Wong,C. S. Yang.Communications of the ACM . 1975 (11)