学术探索
学术期刊
学术作者
新闻热点
数据分析
智能评审
基于视觉特征和领域本体的Web信息抽取
被引:16
作者
:
论文数:
引用数:
h-index:
机构:
张鑫
论文数:
引用数:
h-index:
机构:
陈梅
论文数:
引用数:
h-index:
机构:
王翰虎
论文数:
引用数:
h-index:
机构:
王嫣然
机构
:
[1]
贵州大学计算机科学与信息学院
来源
:
计算机技术与发展
|
2011年
/ 21卷
/ 02期
关键词
:
视觉特征;
领域本体;
Web信息抽取;
路径学习;
启发式学习;
D O I
:
暂无
中图分类号
:
TP393.09 [];
学科分类号
:
摘要
:
为了解决网页信息的自动抽取,该文提出了一种基于视觉特征和领域本体的Web信息抽取算法。该算法以基于领域本体的信息抽取为基础,根据网页的视觉特征来准确划定信息抽取区域,然后结合DOM树技术和抽取路径的启发式学习,获得Web页面中信息项的抽取路径。通过信息项的抽取路径自动生成信息项的领域本体,通过信息项的领域本体解析出信息项的抽取规则。使用本算法来进行Web信息的抽取,具有查全率与查准率高、时间复杂度低、用户负担较轻和自动化程度高的特点。
引用
收藏
页码:58 / 61+65 +65
页数:5
相关论文
共 10 条
[1]
基于DOM树结构的Blog网页自动识别
[J].
论文数:
引用数:
h-index:
机构:
张程
;
论文数:
引用数:
h-index:
机构:
陈自郁
;
论文数:
引用数:
h-index:
机构:
古平
;
论文数:
引用数:
h-index:
机构:
杨瑞龙
.
计算机应用研究,
2008,
(05)
:1489
-1491
[2]
领域Ontology概念描述体系构建方法探析
[J].
论文数:
引用数:
h-index:
机构:
刘耀
;
论文数:
引用数:
h-index:
机构:
穗志方
.
大学图书馆学报,
2006,
(05)
:28
-33
[3]
Deep Web爬虫研究与设计
[J].
论文数:
引用数:
h-index:
机构:
郑冬冬
;
论文数:
引用数:
h-index:
机构:
赵朋朋
;
论文数:
引用数:
h-index:
机构:
崔志明
.
清华大学学报(自然科学版),
2005,
(自然科学版)
:1896
-1902
[4]
基于可视布局信息的网页噪音去除算法
[J].
荆涛
论文数:
0
引用数:
0
h-index:
0
机构:
吉林大学计算机科学与技术学院,吉林大学计算机科学与技术学院吉林长春,吉林长春
荆涛
;
论文数:
引用数:
h-index:
机构:
左万利
.
华南理工大学学报(自然科学版),
2004,
(自然科学版)
:84
-87+98
[5]
基于本体论的Web信息抽取
[J].
论文数:
引用数:
h-index:
机构:
周明建
;
论文数:
引用数:
h-index:
机构:
高济
;
李飞
论文数:
0
引用数:
0
h-index:
0
机构:
浙江大学人工智能研究所,浙江大学人工智能研究所,浙江大学人工智能研究所杭州,杭州,杭州
李飞
.
计算机辅助设计与图形学学报,
2004,
(04)
:535
-541
[6]
基于路径学习的信息自动抽取方法
[J].
论文数:
引用数:
h-index:
机构:
于琨
;
论文数:
引用数:
h-index:
机构:
蔡智
;
糜仲春
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学技术大学计算机科学技术系,中国科学技术大学计算机科学技术系,中国科学技术大学信息管理与决策科学系,中国科学技术大学计算机科学技术系安徽合肥,安徽合肥,安徽合肥,安徽合肥
糜仲春
;
论文数:
引用数:
h-index:
机构:
蔡庆生
.
小型微型计算机系统,
2003,
(12)
:2147
-2149
[7]
基于本体的WEB表格信息抽取
[J].
论文数:
引用数:
h-index:
机构:
王放
;
论文数:
引用数:
h-index:
机构:
顾宁
;
论文数:
引用数:
h-index:
机构:
吴国文
.
小型微型计算机系统,
2003,
(12)
:2142
-2146
[8]
基于描述逻辑的本体模型研究
[J].
论文数:
引用数:
h-index:
机构:
王洪伟
;
论文数:
引用数:
h-index:
机构:
吴家春
;
论文数:
引用数:
h-index:
机构:
蒋馥
.
系统工程,
2003,
(03)
:101
-106
[9]
论文元数据信息的自动抽取
[J].
李朝光
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学视觉与听觉处理国家重点实验室
李朝光
;
张铭
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学视觉与听觉处理国家重点实验室
张铭
;
邓志鸿
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学视觉与听觉处理国家重点实验室
邓志鸿
;
杨冬青
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学视觉与听觉处理国家重点实验室
杨冬青
;
论文数:
引用数:
h-index:
机构:
唐世渭
;
不详
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学视觉与听觉处理国家重点实验室
不详
.
计算机工程与应用 ,
2002,
(21)
:189
-191+235
[10]
Ontology研究综述
[J].
论文数:
引用数:
h-index:
机构:
邓志鸿
;
论文数:
引用数:
h-index:
机构:
唐世渭
;
论文数:
引用数:
h-index:
机构:
张铭
;
杨冬青
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算机系,北京大学视觉与听觉处理国家重点实验室,北京大学计算机系,北京大学计算机系,北京大学视觉与听觉处理国家重点实验室北京,,北京,
杨冬青
;
陈捷
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算机系,北京大学视觉与听觉处理国家重点实验室,北京大学计算机系,北京大学计算机系,北京大学视觉与听觉处理国家重点实验室北京,,北京,
陈捷
.
北京大学学报(自然科学版),
2002,
(05)
:730
-738
←
1
→
共 10 条
[1]
基于DOM树结构的Blog网页自动识别
[J].
论文数:
引用数:
h-index:
机构:
张程
;
论文数:
引用数:
h-index:
机构:
陈自郁
;
论文数:
引用数:
h-index:
机构:
古平
;
论文数:
引用数:
h-index:
机构:
杨瑞龙
.
计算机应用研究,
2008,
(05)
:1489
-1491
[2]
领域Ontology概念描述体系构建方法探析
[J].
论文数:
引用数:
h-index:
机构:
刘耀
;
论文数:
引用数:
h-index:
机构:
穗志方
.
大学图书馆学报,
2006,
(05)
:28
-33
[3]
Deep Web爬虫研究与设计
[J].
论文数:
引用数:
h-index:
机构:
郑冬冬
;
论文数:
引用数:
h-index:
机构:
赵朋朋
;
论文数:
引用数:
h-index:
机构:
崔志明
.
清华大学学报(自然科学版),
2005,
(自然科学版)
:1896
-1902
[4]
基于可视布局信息的网页噪音去除算法
[J].
荆涛
论文数:
0
引用数:
0
h-index:
0
机构:
吉林大学计算机科学与技术学院,吉林大学计算机科学与技术学院吉林长春,吉林长春
荆涛
;
论文数:
引用数:
h-index:
机构:
左万利
.
华南理工大学学报(自然科学版),
2004,
(自然科学版)
:84
-87+98
[5]
基于本体论的Web信息抽取
[J].
论文数:
引用数:
h-index:
机构:
周明建
;
论文数:
引用数:
h-index:
机构:
高济
;
李飞
论文数:
0
引用数:
0
h-index:
0
机构:
浙江大学人工智能研究所,浙江大学人工智能研究所,浙江大学人工智能研究所杭州,杭州,杭州
李飞
.
计算机辅助设计与图形学学报,
2004,
(04)
:535
-541
[6]
基于路径学习的信息自动抽取方法
[J].
论文数:
引用数:
h-index:
机构:
于琨
;
论文数:
引用数:
h-index:
机构:
蔡智
;
糜仲春
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学技术大学计算机科学技术系,中国科学技术大学计算机科学技术系,中国科学技术大学信息管理与决策科学系,中国科学技术大学计算机科学技术系安徽合肥,安徽合肥,安徽合肥,安徽合肥
糜仲春
;
论文数:
引用数:
h-index:
机构:
蔡庆生
.
小型微型计算机系统,
2003,
(12)
:2147
-2149
[7]
基于本体的WEB表格信息抽取
[J].
论文数:
引用数:
h-index:
机构:
王放
;
论文数:
引用数:
h-index:
机构:
顾宁
;
论文数:
引用数:
h-index:
机构:
吴国文
.
小型微型计算机系统,
2003,
(12)
:2142
-2146
[8]
基于描述逻辑的本体模型研究
[J].
论文数:
引用数:
h-index:
机构:
王洪伟
;
论文数:
引用数:
h-index:
机构:
吴家春
;
论文数:
引用数:
h-index:
机构:
蒋馥
.
系统工程,
2003,
(03)
:101
-106
[9]
论文元数据信息的自动抽取
[J].
李朝光
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学视觉与听觉处理国家重点实验室
李朝光
;
张铭
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学视觉与听觉处理国家重点实验室
张铭
;
邓志鸿
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学视觉与听觉处理国家重点实验室
邓志鸿
;
杨冬青
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学视觉与听觉处理国家重点实验室
杨冬青
;
论文数:
引用数:
h-index:
机构:
唐世渭
;
不详
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学视觉与听觉处理国家重点实验室
不详
.
计算机工程与应用 ,
2002,
(21)
:189
-191+235
[10]
Ontology研究综述
[J].
论文数:
引用数:
h-index:
机构:
邓志鸿
;
论文数:
引用数:
h-index:
机构:
唐世渭
;
论文数:
引用数:
h-index:
机构:
张铭
;
杨冬青
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算机系,北京大学视觉与听觉处理国家重点实验室,北京大学计算机系,北京大学计算机系,北京大学视觉与听觉处理国家重点实验室北京,,北京,
杨冬青
;
陈捷
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算机系,北京大学视觉与听觉处理国家重点实验室,北京大学计算机系,北京大学计算机系,北京大学视觉与听觉处理国家重点实验室北京,,北京,
陈捷
.
北京大学学报(自然科学版),
2002,
(05)
:730
-738
←
1
→