基于扩展领域模型的有名属性抽取

被引：43

作者：

王宇 ^{[1
,2
]}

谭松波 ^{[1
]}

廖祥文 ^{[1
,2
]}

曾依灵 ^{[1
,2
]}

机构：

[1] 中国科学院计算技术研究所

[2] 中国科学院研究生院

来源：

计算机研究与发展 | 2010年 / 47卷 / 09期

关键词：

信息抽取; 属性抽取; 有名属性; 扩展领域模型; 网页视觉分析;

D O I：

暂无

中图分类号：

TP393.09 [];

学科分类号：

摘要：

网页信息抽取是互联网挖掘的重要课题.为了自动化抽取过程,最新的研究利用特定领域的特征,通过机器学习方法对信息抽取过程进行统一建模.但是,对领域特征的依赖使得这类方法难以推广到其他领域中去.因此,对信息抽取问题进行了分析,从中分离出一个可以完全自动化的信息抽取子任务,即有名属性抽取任务.在多个领域的数据集上进行的统计表明,这个子任务覆盖了60%以上的待抽取属性,因此它在整个信息抽取中占有重要地位.并给出了一种基于扩展领域模型的有名属性抽取方法,实验结果表明,这种方法的准确率接近或大于80%,召回率大于90%.

引用

页码：1567 / 1573

页数：7

共 6 条

[1]

基于结果模式的Deep Web数据抽取 [J].