学术探索
学术期刊
学术作者
新闻热点
数据分析
智能评审
基于扩展领域模型的有名属性抽取
被引:43
作者
:
论文数:
引用数:
h-index:
机构:
王宇
[
1
,
2
]
论文数:
引用数:
h-index:
机构:
谭松波
[
1
]
论文数:
引用数:
h-index:
机构:
廖祥文
[
1
,
2
]
论文数:
引用数:
h-index:
机构:
曾依灵
[
1
,
2
]
机构
:
[1]
中国科学院计算技术研究所
[2]
中国科学院研究生院
来源
:
计算机研究与发展
|
2010年
/ 47卷
/ 09期
关键词
:
信息抽取;
属性抽取;
有名属性;
扩展领域模型;
网页视觉分析;
D O I
:
暂无
中图分类号
:
TP393.09 [];
学科分类号
:
摘要
:
网页信息抽取是互联网挖掘的重要课题.为了自动化抽取过程,最新的研究利用特定领域的特征,通过机器学习方法对信息抽取过程进行统一建模.但是,对领域特征的依赖使得这类方法难以推广到其他领域中去.因此,对信息抽取问题进行了分析,从中分离出一个可以完全自动化的信息抽取子任务,即有名属性抽取任务.在多个领域的数据集上进行的统计表明,这个子任务覆盖了60%以上的待抽取属性,因此它在整个信息抽取中占有重要地位.并给出了一种基于扩展领域模型的有名属性抽取方法,实验结果表明,这种方法的准确率接近或大于80%,召回率大于90%.
引用
收藏
页码:1567 / 1573
页数:7
相关论文
共 6 条
[1]
基于结果模式的Deep Web数据抽取
[J].
论文数:
引用数:
h-index:
机构:
马安香
;
论文数:
引用数:
h-index:
机构:
张斌
;
论文数:
引用数:
h-index:
机构:
高克宁
;
论文数:
引用数:
h-index:
机构:
齐鹏
;
论文数:
引用数:
h-index:
机构:
张引
.
计算机研究与发展,
2009,
46
(02)
:280
-288
[2]
针对模板生成网页的一种数据自动抽取方法(英文)
[J].
论文数:
引用数:
h-index:
机构:
杨少华
;
论文数:
引用数:
h-index:
机构:
林海略
;
论文数:
引用数:
h-index:
机构:
韩燕波
.
软件学报,
2008,
(02)
:209
-223
[3]
一种全自动生成网页信息抽取Wrapper的方法
[J].
梅雪
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所
梅雪
;
论文数:
引用数:
h-index:
机构:
程学旗
;
论文数:
引用数:
h-index:
机构:
郭岩
;
论文数:
引用数:
h-index:
机构:
张刚
;
论文数:
引用数:
h-index:
机构:
丁国栋
.
中文信息学报,
2008,
(01)
:22
-29
[4]
一种基于树结构的Web数据自动抽取方法
[J].
胡东东
论文数:
0
引用数:
0
h-index:
0
机构:
中国人民大学信息学院,中国人民大学信息学院北京,北京
胡东东
;
论文数:
引用数:
h-index:
机构:
孟小峰
.
计算机研究与发展,
2004,
(10)
:1607
-1613
[5]
Building intelligent Web applications using lightweight wrappers
[J].
Sahuguet, A
论文数:
0
引用数:
0
h-index:
0
机构:
Univ Penn, Dept Comp & Informat Sci, Philadelphia, PA 19104 USA
Sahuguet, A
;
Azavant, F
论文数:
0
引用数:
0
h-index:
0
机构:
Univ Penn, Dept Comp & Informat Sci, Philadelphia, PA 19104 USA
Azavant, F
.
DATA & KNOWLEDGE ENGINEERING,
2001,
36
(03)
:283
-316
[6]
Efficient string matching.[J].Alfred V. Aho;Margaret J. Corasick.Communications of the ACM.1975, 6
←
1
→
共 6 条
[1]
基于结果模式的Deep Web数据抽取
[J].
论文数:
引用数:
h-index:
机构:
马安香
;
论文数:
引用数:
h-index:
机构:
张斌
;
论文数:
引用数:
h-index:
机构:
高克宁
;
论文数:
引用数:
h-index:
机构:
齐鹏
;
论文数:
引用数:
h-index:
机构:
张引
.
计算机研究与发展,
2009,
46
(02)
:280
-288
[2]
针对模板生成网页的一种数据自动抽取方法(英文)
[J].
论文数:
引用数:
h-index:
机构:
杨少华
;
论文数:
引用数:
h-index:
机构:
林海略
;
论文数:
引用数:
h-index:
机构:
韩燕波
.
软件学报,
2008,
(02)
:209
-223
[3]
一种全自动生成网页信息抽取Wrapper的方法
[J].
梅雪
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所
梅雪
;
论文数:
引用数:
h-index:
机构:
程学旗
;
论文数:
引用数:
h-index:
机构:
郭岩
;
论文数:
引用数:
h-index:
机构:
张刚
;
论文数:
引用数:
h-index:
机构:
丁国栋
.
中文信息学报,
2008,
(01)
:22
-29
[4]
一种基于树结构的Web数据自动抽取方法
[J].
胡东东
论文数:
0
引用数:
0
h-index:
0
机构:
中国人民大学信息学院,中国人民大学信息学院北京,北京
胡东东
;
论文数:
引用数:
h-index:
机构:
孟小峰
.
计算机研究与发展,
2004,
(10)
:1607
-1613
[5]
Building intelligent Web applications using lightweight wrappers
[J].
Sahuguet, A
论文数:
0
引用数:
0
h-index:
0
机构:
Univ Penn, Dept Comp & Informat Sci, Philadelphia, PA 19104 USA
Sahuguet, A
;
Azavant, F
论文数:
0
引用数:
0
h-index:
0
机构:
Univ Penn, Dept Comp & Informat Sci, Philadelphia, PA 19104 USA
Azavant, F
.
DATA & KNOWLEDGE ENGINEERING,
2001,
36
(03)
:283
-316
[6]
Efficient string matching.[J].Alfred V. Aho;Margaret J. Corasick.Communications of the ACM.1975, 6
←
1
→