学术探索
学术期刊
学术作者
新闻热点
数据分析
智能评审
Web信息的自主抽取方法
被引:44
作者
:
论文数:
引用数:
h-index:
机构:
许建潮
侯锟
论文数:
0
引用数:
0
h-index:
0
机构:
长春工业大学计算机科学与工程学院,长春工业大学计算机科学与工程学院 长春
侯锟
机构
:
[1]
长春工业大学计算机科学与工程学院,长春工业大学计算机科学与工程学院 长春
[2]
吉林大学符号计算与知识工程教育部重点实验室,长春,长春
来源
:
计算机工程与应用
|
2005年
/ 14期
关键词
:
Web;
半结构化数据;
信息抽取;
Wrapper;
D O I
:
暂无
中图分类号
:
TP393.09 [];
学科分类号
:
摘要
:
提出了基于表格结构及列表结构的W eb页面信息自主抽取的方法。可根据用户对信息的需求自主地从相关页面中抽取信息并将抽取信息按关系模型进行重组存放在数据库中,对表格结构信息源仅需标注一页网页,即可获取抽取知识,通过自学习能够较好地适应网页信息的动态变化,实现信息的自动抽取。对列表结构信息源信息,通过对DOM树结构的分析,动态获得信息块在DOM层次结构中的路径,根据信息对象基本的抽取知识,获得信息对象值。采用自学习的方法以适应网页信息的动态变化。
引用
收藏
页码:185 / 189+198 +198
页数:6
相关论文
共 5 条
[1]
Web页面清洗技术的研究与实现
[J].
周源远
论文数:
0
引用数:
0
h-index:
0
机构:
南京大学软件新技术国家重点实验室,南京大学计算机科学与技术系,南京大学软件新技术国家重点实验室,南京大学计算机科学与技术系,南京大学软件新技术国家重点实验室,南京大学计算机科学与技术系,南京大学软件新技术国家重点实验室,南京大学计算机科学与技术系南京,南
周源远
;
论文数:
引用数:
h-index:
机构:
王继成
;
郑刚
论文数:
0
引用数:
0
h-index:
0
机构:
南京大学软件新技术国家重点实验室,南京大学计算机科学与技术系,南京大学软件新技术国家重点实验室,南京大学计算机科学与技术系,南京大学软件新技术国家重点实验室,南京大学计算机科学与技术系,南京大学软件新技术国家重点实验室,南京大学计算机科学与技术系南京,南
郑刚
;
论文数:
引用数:
h-index:
机构:
张福炎
.
计算机工程,
2002,
(09)
:48
-50+197
[2]
基于DOM的Web信息提取
[J].
论文数:
引用数:
h-index:
机构:
李效东
;
论文数:
引用数:
h-index:
机构:
顾毓清
.
计算机学报,
2002,
(05)
:526
-533
[3]
基于多知识的Web网页信息抽取方法
[J].
朱明
论文数:
0
引用数:
0
h-index:
0
机构:
中国科技大学自动化系!安徽合肥,中国科技大学自动化系!安徽合肥,中国科技大学自动化系!安徽合肥
朱明
;
黄云
论文数:
0
引用数:
0
h-index:
0
机构:
中国科技大学自动化系!安徽合肥,中国科技大学自动化系!安徽合肥,中国科技大学自动化系!安徽合肥
黄云
;
蔡庆生
论文数:
0
引用数:
0
h-index:
0
机构:
中国科技大学自动化系!安徽合肥,中国科技大学自动化系!安徽合肥,中国科技大学自动化系!安徽合肥
蔡庆生
.
小型微型计算机系统,
2001,
(09)
:1058
-1061
[4]
基于内容的网页特征提取
[J].
论文数:
引用数:
h-index:
机构:
张义忠
;
论文数:
引用数:
h-index:
机构:
赵明生
;
论文数:
引用数:
h-index:
机构:
朱精南
.
计算机工程与应用,
2001,
(10)
:1
-3
[5]
从WEB文档中构造半结构化信息的抽取器
[J].
黄豫清
论文数:
0
引用数:
0
h-index:
0
机构:
南京大学多媒体计算机研究所!南京
黄豫清
;
戚广志
论文数:
0
引用数:
0
h-index:
0
机构:
南京大学多媒体计算机研究所!南京
戚广志
;
论文数:
引用数:
h-index:
机构:
张福炎
.
软件学报,
2000,
(01)
:73
-78
←
1
→
共 5 条
[1]
Web页面清洗技术的研究与实现
[J].
周源远
论文数:
0
引用数:
0
h-index:
0
机构:
南京大学软件新技术国家重点实验室,南京大学计算机科学与技术系,南京大学软件新技术国家重点实验室,南京大学计算机科学与技术系,南京大学软件新技术国家重点实验室,南京大学计算机科学与技术系,南京大学软件新技术国家重点实验室,南京大学计算机科学与技术系南京,南
周源远
;
论文数:
引用数:
h-index:
机构:
王继成
;
郑刚
论文数:
0
引用数:
0
h-index:
0
机构:
南京大学软件新技术国家重点实验室,南京大学计算机科学与技术系,南京大学软件新技术国家重点实验室,南京大学计算机科学与技术系,南京大学软件新技术国家重点实验室,南京大学计算机科学与技术系,南京大学软件新技术国家重点实验室,南京大学计算机科学与技术系南京,南
郑刚
;
论文数:
引用数:
h-index:
机构:
张福炎
.
计算机工程,
2002,
(09)
:48
-50+197
[2]
基于DOM的Web信息提取
[J].
论文数:
引用数:
h-index:
机构:
李效东
;
论文数:
引用数:
h-index:
机构:
顾毓清
.
计算机学报,
2002,
(05)
:526
-533
[3]
基于多知识的Web网页信息抽取方法
[J].
朱明
论文数:
0
引用数:
0
h-index:
0
机构:
中国科技大学自动化系!安徽合肥,中国科技大学自动化系!安徽合肥,中国科技大学自动化系!安徽合肥
朱明
;
黄云
论文数:
0
引用数:
0
h-index:
0
机构:
中国科技大学自动化系!安徽合肥,中国科技大学自动化系!安徽合肥,中国科技大学自动化系!安徽合肥
黄云
;
蔡庆生
论文数:
0
引用数:
0
h-index:
0
机构:
中国科技大学自动化系!安徽合肥,中国科技大学自动化系!安徽合肥,中国科技大学自动化系!安徽合肥
蔡庆生
.
小型微型计算机系统,
2001,
(09)
:1058
-1061
[4]
基于内容的网页特征提取
[J].
论文数:
引用数:
h-index:
机构:
张义忠
;
论文数:
引用数:
h-index:
机构:
赵明生
;
论文数:
引用数:
h-index:
机构:
朱精南
.
计算机工程与应用,
2001,
(10)
:1
-3
[5]
从WEB文档中构造半结构化信息的抽取器
[J].
黄豫清
论文数:
0
引用数:
0
h-index:
0
机构:
南京大学多媒体计算机研究所!南京
黄豫清
;
戚广志
论文数:
0
引用数:
0
h-index:
0
机构:
南京大学多媒体计算机研究所!南京
戚广志
;
论文数:
引用数:
h-index:
机构:
张福炎
.
软件学报,
2000,
(01)
:73
-78
←
1
→