含有语义特征的网页新闻自动抽取

被引:5
作者
施洋
张奇
黄萱菁
机构
[1] 复旦大学计算机科学技术学院
基金
高等学校博士学科点专项科研基金;
关键词
网络信息抽取; 语义特征; 局部特征;
D O I
暂无
中图分类号
TP393.092 [];
学科分类号
080402 ;
摘要
通过分析新闻网页的语义特征以及网页之间存在的通用性质,提出一种含有语义特征的网页新闻自动抽取方法,包括利用语义分类器识别新闻网页中的种子信息以及页面中的局部信息来完成抽取。在分类器中加入语义特征可以使F1值达到94.2%。在语义分类器与局部特征结合的情况下,F1值可以达到96.9%。实验结果证明,该方法能有效提高网页信息抽取算法的精度,降低机器学习所需要的标注成本。
引用
收藏
页码:173 / 175+178 +178
页数:4
相关论文
共 3 条
[1]   基于布局特征与语言特征的网页主要内容块发现 [J].
韩先培 ;
刘康 ;
赵军 .
中文信息学报, 2008, (01) :15-21
[2]   网页信息抽取及建库系统C#实现 [J].
刘华 .
计算机工程, 2006, (16) :49-51
[3]   A brief survey of Web data extraction tools [J].
Laender, AHF ;
Ribeiro-Neto, BA ;
da Silva, AS ;
Teixeira, JS .
SIGMOD RECORD, 2002, 31 (02) :84-93