基于视觉特征和领域本体的Web信息抽取

被引:16
作者
张鑫
陈梅
王翰虎
王嫣然
机构
[1] 贵州大学计算机科学与信息学院
关键词
视觉特征; 领域本体; Web信息抽取; 路径学习; 启发式学习;
D O I
暂无
中图分类号
TP393.09 [];
学科分类号
摘要
为了解决网页信息的自动抽取,该文提出了一种基于视觉特征和领域本体的Web信息抽取算法。该算法以基于领域本体的信息抽取为基础,根据网页的视觉特征来准确划定信息抽取区域,然后结合DOM树技术和抽取路径的启发式学习,获得Web页面中信息项的抽取路径。通过信息项的抽取路径自动生成信息项的领域本体,通过信息项的领域本体解析出信息项的抽取规则。使用本算法来进行Web信息的抽取,具有查全率与查准率高、时间复杂度低、用户负担较轻和自动化程度高的特点。
引用
收藏
页码:58 / 61+65 +65
页数:5
相关论文
共 10 条
[1]
基于DOM树结构的Blog网页自动识别 [J].
张程 ;
陈自郁 ;
古平 ;
杨瑞龙 .
计算机应用研究, 2008, (05) :1489-1491
[2]
领域Ontology概念描述体系构建方法探析 [J].
刘耀 ;
穗志方 .
大学图书馆学报, 2006, (05) :28-33
[3]
Deep Web爬虫研究与设计 [J].
郑冬冬 ;
赵朋朋 ;
崔志明 .
清华大学学报(自然科学版), 2005, (自然科学版) :1896-1902
[4]
基于可视布局信息的网页噪音去除算法 [J].
荆涛 ;
左万利 .
华南理工大学学报(自然科学版), 2004, (自然科学版) :84-87+98
[5]
基于本体论的Web信息抽取 [J].
周明建 ;
高济 ;
李飞 .
计算机辅助设计与图形学学报, 2004, (04) :535-541
[6]
基于路径学习的信息自动抽取方法 [J].
于琨 ;
蔡智 ;
糜仲春 ;
蔡庆生 .
小型微型计算机系统, 2003, (12) :2147-2149
[7]
基于本体的WEB表格信息抽取 [J].
王放 ;
顾宁 ;
吴国文 .
小型微型计算机系统, 2003, (12) :2142-2146
[8]
基于描述逻辑的本体模型研究 [J].
王洪伟 ;
吴家春 ;
蒋馥 .
系统工程, 2003, (03) :101-106
[9]
论文元数据信息的自动抽取 [J].
李朝光 ;
张铭 ;
邓志鸿 ;
杨冬青 ;
唐世渭 ;
不详 .
计算机工程与应用 , 2002, (21) :189-191+235
[10]
Ontology研究综述 [J].
邓志鸿 ;
唐世渭 ;
张铭 ;
杨冬青 ;
陈捷 .
北京大学学报(自然科学版), 2002, (05) :730-738