学术探索
学术期刊
学术作者
新闻热点
数据分析
智能评审
基于HTML模式代数的Web信息提取方法
被引:17
作者
:
论文数:
引用数:
h-index:
机构:
李石君
[
1
]
论文数:
引用数:
h-index:
机构:
于俊清
[
2
]
论文数:
引用数:
h-index:
机构:
欧伟杰
[
1
]
机构
:
[1]
武汉大学计算机学院
[2]
华中科技大学计算机科学与技术学院
来源
:
计算机研究与发展
|
2006年
/ 09期
关键词
:
Web信息提取;
包装器归纳学习;
Web挖掘;
D O I
:
暂无
中图分类号
:
TP312.2 [];
学科分类号
:
摘要
:
高效地生成提取Web信息的包装器有着广阔的应用前景,同时也是至今没有得到有效解决的难题.为此,提出了基于HTML文档的模式代数,该代数包括一致模式集等重要概念以及模式的加法运算.在此基础上,提出了一种提取Web信息的新方法,该方法采用在整个训练例子中学习表示各属性提取规则的一致模式集,再由多个模式组成的一致模式集提取数据,适用于提取具有缺省属性、多值属性、属性具有多种不同顺序的表结构网页和层次结构网页,其有效性在原型系统中通过实验得到验证.
引用
收藏
页码:1644 / 1650
页数:7
相关论文
共 6 条
[1]
基于对象代理模型的工作流视图实现
[J].
彭智勇
论文数:
0
引用数:
0
h-index:
0
机构:
武汉大学软件工程国家重点实验室
彭智勇
;
罗义
论文数:
0
引用数:
0
h-index:
0
机构:
武汉大学软件工程国家重点实验室
罗义
;
单喆
论文数:
0
引用数:
0
h-index:
0
机构:
武汉大学软件工程国家重点实验室
单喆
;
李青
论文数:
0
引用数:
0
h-index:
0
机构:
武汉大学软件工程国家重点实验室
李青
.
计算机学报,
2005,
(04)
:651
-660
[2]
一种基于树结构的Web数据自动抽取方法
[J].
胡东东
论文数:
0
引用数:
0
h-index:
0
机构:
中国人民大学信息学院,中国人民大学信息学院北京,北京
胡东东
;
论文数:
引用数:
h-index:
机构:
孟小峰
.
计算机研究与发展,
2004,
(10)
:1607
-1613
[3]
基于Ontology的Web内容二阶段半自动提取方法
[J].
论文数:
引用数:
h-index:
机构:
高军
;
论文数:
引用数:
h-index:
机构:
王腾蛟
;
论文数:
引用数:
h-index:
机构:
杨冬青
;
唐世渭
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学信息科学技术学院,北京大学视觉与听觉处理国家重点实验室北京,北京
唐世渭
.
计算机学报,
2004,
(03)
:310
-318
[4]
XML数据的路径表达式查询优化技术
[J].
吕建华
论文数:
0
引用数:
0
h-index:
0
机构:
东北大学信息科学与工程学院
吕建华
;
王国仁
论文数:
0
引用数:
0
h-index:
0
机构:
东北大学信息科学与工程学院
王国仁
;
于戈
论文数:
0
引用数:
0
h-index:
0
机构:
东北大学信息科学与工程学院
于戈
.
软件学报,
2003,
(09)
:1615
-1620
[5]
基于DOM的Web信息提取
[J].
论文数:
引用数:
h-index:
机构:
李效东
;
论文数:
引用数:
h-index:
机构:
顾毓清
.
计算机学报,
2002,
(05)
:526
-533
[6]
从WEB文档中构造半结构化信息的抽取器
[J].
黄豫清
论文数:
0
引用数:
0
h-index:
0
机构:
南京大学多媒体计算机研究所!南京
黄豫清
;
戚广志
论文数:
0
引用数:
0
h-index:
0
机构:
南京大学多媒体计算机研究所!南京
戚广志
;
论文数:
引用数:
h-index:
机构:
张福炎
.
软件学报,
2000,
(01)
:73
-78
←
1
→
共 6 条
[1]
基于对象代理模型的工作流视图实现
[J].
彭智勇
论文数:
0
引用数:
0
h-index:
0
机构:
武汉大学软件工程国家重点实验室
彭智勇
;
罗义
论文数:
0
引用数:
0
h-index:
0
机构:
武汉大学软件工程国家重点实验室
罗义
;
单喆
论文数:
0
引用数:
0
h-index:
0
机构:
武汉大学软件工程国家重点实验室
单喆
;
李青
论文数:
0
引用数:
0
h-index:
0
机构:
武汉大学软件工程国家重点实验室
李青
.
计算机学报,
2005,
(04)
:651
-660
[2]
一种基于树结构的Web数据自动抽取方法
[J].
胡东东
论文数:
0
引用数:
0
h-index:
0
机构:
中国人民大学信息学院,中国人民大学信息学院北京,北京
胡东东
;
论文数:
引用数:
h-index:
机构:
孟小峰
.
计算机研究与发展,
2004,
(10)
:1607
-1613
[3]
基于Ontology的Web内容二阶段半自动提取方法
[J].
论文数:
引用数:
h-index:
机构:
高军
;
论文数:
引用数:
h-index:
机构:
王腾蛟
;
论文数:
引用数:
h-index:
机构:
杨冬青
;
唐世渭
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学信息科学技术学院,北京大学视觉与听觉处理国家重点实验室北京,北京
唐世渭
.
计算机学报,
2004,
(03)
:310
-318
[4]
XML数据的路径表达式查询优化技术
[J].
吕建华
论文数:
0
引用数:
0
h-index:
0
机构:
东北大学信息科学与工程学院
吕建华
;
王国仁
论文数:
0
引用数:
0
h-index:
0
机构:
东北大学信息科学与工程学院
王国仁
;
于戈
论文数:
0
引用数:
0
h-index:
0
机构:
东北大学信息科学与工程学院
于戈
.
软件学报,
2003,
(09)
:1615
-1620
[5]
基于DOM的Web信息提取
[J].
论文数:
引用数:
h-index:
机构:
李效东
;
论文数:
引用数:
h-index:
机构:
顾毓清
.
计算机学报,
2002,
(05)
:526
-533
[6]
从WEB文档中构造半结构化信息的抽取器
[J].
黄豫清
论文数:
0
引用数:
0
h-index:
0
机构:
南京大学多媒体计算机研究所!南京
黄豫清
;
戚广志
论文数:
0
引用数:
0
h-index:
0
机构:
南京大学多媒体计算机研究所!南京
戚广志
;
论文数:
引用数:
h-index:
机构:
张福炎
.
软件学报,
2000,
(01)
:73
-78
←
1
→