含有语义特征的网页新闻自动抽取

被引：5

作者：

施洋

张奇

黄萱菁

机构：

[1] 复旦大学计算机科学技术学院

来源：

计算机工程 | 2010年 / 36卷 / 07期

基金：

高等学校博士学科点专项科研基金;

关键词：

网络信息抽取; 语义特征; 局部特征;

D O I：

暂无

中图分类号：

TP393.092 [];

学科分类号：

080402 ;

摘要：

通过分析新闻网页的语义特征以及网页之间存在的通用性质,提出一种含有语义特征的网页新闻自动抽取方法,包括利用语义分类器识别新闻网页中的种子信息以及页面中的局部信息来完成抽取。在分类器中加入语义特征可以使F1值达到94.2%。在语义分类器与局部特征结合的情况下,F1值可以达到96.9%。实验结果证明,该方法能有效提高网页信息抽取算法的精度,降低机器学习所需要的标注成本。

引用

页码：173 / 175+178 +178

页数：4