学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
基于HTML树和模板的文献信息提取方法研究
被引:7
作者
:
李文立
论文数:
0
引用数:
0
h-index:
0
机构:
大连理工大学管理学院系统工程研究所
李文立
王乐超
论文数:
0
引用数:
0
h-index:
0
机构:
大连理工大学管理学院系统工程研究所
王乐超
论文数:
引用数:
h-index:
机构:
宋春雷
机构
:
[1]
大连理工大学管理学院系统工程研究所
来源
:
计算机应用研究
|
2010年
/ 27卷
/ 12期
关键词
:
网页信息提取;
文档对象模型树;
模板;
文献信息搜集;
D O I
:
暂无
中图分类号
:
TP391.1 [文字信息处理];
学科分类号
:
081203 ;
0835 ;
摘要
:
教师科研文献信息的自动搜集是科研成果有效管理的重要手段,将网页信息的提取方法用于网络数据库中文献信息的自动搜集有广大的应用前景。提出基于DOM树和模板的文献信息提取方法,利用HTML标记间的嵌套关系将Web网页表示成一棵DOM树,将DOM树结构用于网页相似度的度量和自动分类,相似度高的网页应用同一模板进行信息提取。实验结果表明该方法在提取网络数据库中文献信息的准确率在94%以上。
引用
收藏
页码:4615 / 4617
页数:3
相关论文
共 8 条
[1]
基于DOM模型扩展的Web信息提取
[J].
顾韵华
论文数:
0
引用数:
0
h-index:
0
机构:
南京信息工程大学计算机与软件学院
顾韵华
;
论文数:
引用数:
h-index:
机构:
田伟
.
计算机科学,
2009,
36
(11)
:235
-237+289
[2]
网页正文信息抽取新方法
[J].
论文数:
引用数:
h-index:
机构:
宋明秋
;
张瑞雪
论文数:
0
引用数:
0
h-index:
0
机构:
大连理工大学系统工程研究所
张瑞雪
;
吴新涛
论文数:
0
引用数:
0
h-index:
0
机构:
大连理工大学系统工程研究所
吴新涛
;
论文数:
引用数:
h-index:
机构:
李文立
.
大连理工大学学报,
2009,
49
(04)
:594
-597
[3]
网页结构模板生成新方法研究
[J].
冯少卿
论文数:
0
引用数:
0
h-index:
0
机构:
北京信息工程学院中文信息处理研究中心
冯少卿
;
都云程
论文数:
0
引用数:
0
h-index:
0
机构:
北京信息工程学院中文信息处理研究中心
都云程
.
北京机械工业学院学报,
2007,
(03)
:15
-19
[4]
模板化网页主题信息的提取方法
[J].
欧健文
论文数:
0
引用数:
0
h-index:
0
机构:
华南理工大学广东省计算机网络重点实验室
欧健文
;
董守斌
论文数:
0
引用数:
0
h-index:
0
机构:
华南理工大学广东省计算机网络重点实验室
董守斌
;
蔡斌
论文数:
0
引用数:
0
h-index:
0
机构:
华南理工大学广东省计算机网络重点实验室
蔡斌
.
清华大学学报(自然科学版),
2005,
(S1)
:1743
-1747
[5]
基于DOM的网页主题信息自动提取
[J].
王琦
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学视觉与听觉信息处理国家重点实验室,北京大学视觉与听觉信息处理国家重点实验室,北京大学计算机科学与技术系,北京大学计算机科学与技术系北京,北京,北京大学计算机科学与技术系北京,北京,北京
王琦
;
论文数:
引用数:
h-index:
机构:
唐世渭
;
杨冬青
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学视觉与听觉信息处理国家重点实验室,北京大学视觉与听觉信息处理国家重点实验室,北京大学计算机科学与技术系,北京大学计算机科学与技术系北京,北京,北京大学计算机科学与技术系北京,北京,北京
杨冬青
;
王腾蛟
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学视觉与听觉信息处理国家重点实验室,北京大学视觉与听觉信息处理国家重点实验室,北京大学计算机科学与技术系,北京大学计算机科学与技术系北京,北京,北京大学计算机科学与技术系北京,北京,北京
王腾蛟
.
计算机研究与发展,
2004,
(10)
:1786
-1792
[6]
一种提高中文搜索引擎检索质量的HTML解析方法
[J].
宋睿华
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机科学与技术系
宋睿华
;
马少平
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机科学与技术系
马少平
;
陈刚
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机科学与技术系
陈刚
;
李景阳
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机科学与技术系
李景阳
.
中文信息学报,
2003,
(04)
:19
-26
[7]
Tag tree template for Web information and schema extraction
[J].
Ji, Xiangwen
论文数:
0
引用数:
0
h-index:
0
机构:
Fudan Univ, Sch Comp Sci, Shanghai 200433, Peoples R China
Fudan Univ, Sch Comp Sci, Shanghai 200433, Peoples R China
Ji, Xiangwen
;
Zeng, Jianping
论文数:
0
引用数:
0
h-index:
0
机构:
Fudan Univ, Sch Comp Sci, Shanghai 200433, Peoples R China
Fudan Univ, Sch Comp Sci, Shanghai 200433, Peoples R China
Zeng, Jianping
;
Zhang, Shiyong
论文数:
0
引用数:
0
h-index:
0
机构:
Fudan Univ, Sch Comp Sci, Shanghai 200433, Peoples R China
Fudan Univ, Sch Comp Sci, Shanghai 200433, Peoples R China
Zhang, Shiyong
;
Wu, Chengrong
论文数:
0
引用数:
0
h-index:
0
机构:
Fudan Univ, Sch Comp Sci, Shanghai 200433, Peoples R China
Fudan Univ, Sch Comp Sci, Shanghai 200433, Peoples R China
Wu, Chengrong
.
EXPERT SYSTEMS WITH APPLICATIONS,
2010,
37
(12)
:8492
-8498
[8]
Wrapper generation for semi-structured Internet sources[J] . Naveen Ashish,Craig A. Knoblock. ACM SIGMOD Record . 1997 (4)
←
1
→
共 8 条
[1]
基于DOM模型扩展的Web信息提取
[J].
顾韵华
论文数:
0
引用数:
0
h-index:
0
机构:
南京信息工程大学计算机与软件学院
顾韵华
;
论文数:
引用数:
h-index:
机构:
田伟
.
计算机科学,
2009,
36
(11)
:235
-237+289
[2]
网页正文信息抽取新方法
[J].
论文数:
引用数:
h-index:
机构:
宋明秋
;
张瑞雪
论文数:
0
引用数:
0
h-index:
0
机构:
大连理工大学系统工程研究所
张瑞雪
;
吴新涛
论文数:
0
引用数:
0
h-index:
0
机构:
大连理工大学系统工程研究所
吴新涛
;
论文数:
引用数:
h-index:
机构:
李文立
.
大连理工大学学报,
2009,
49
(04)
:594
-597
[3]
网页结构模板生成新方法研究
[J].
冯少卿
论文数:
0
引用数:
0
h-index:
0
机构:
北京信息工程学院中文信息处理研究中心
冯少卿
;
都云程
论文数:
0
引用数:
0
h-index:
0
机构:
北京信息工程学院中文信息处理研究中心
都云程
.
北京机械工业学院学报,
2007,
(03)
:15
-19
[4]
模板化网页主题信息的提取方法
[J].
欧健文
论文数:
0
引用数:
0
h-index:
0
机构:
华南理工大学广东省计算机网络重点实验室
欧健文
;
董守斌
论文数:
0
引用数:
0
h-index:
0
机构:
华南理工大学广东省计算机网络重点实验室
董守斌
;
蔡斌
论文数:
0
引用数:
0
h-index:
0
机构:
华南理工大学广东省计算机网络重点实验室
蔡斌
.
清华大学学报(自然科学版),
2005,
(S1)
:1743
-1747
[5]
基于DOM的网页主题信息自动提取
[J].
王琦
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学视觉与听觉信息处理国家重点实验室,北京大学视觉与听觉信息处理国家重点实验室,北京大学计算机科学与技术系,北京大学计算机科学与技术系北京,北京,北京大学计算机科学与技术系北京,北京,北京
王琦
;
论文数:
引用数:
h-index:
机构:
唐世渭
;
杨冬青
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学视觉与听觉信息处理国家重点实验室,北京大学视觉与听觉信息处理国家重点实验室,北京大学计算机科学与技术系,北京大学计算机科学与技术系北京,北京,北京大学计算机科学与技术系北京,北京,北京
杨冬青
;
王腾蛟
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学视觉与听觉信息处理国家重点实验室,北京大学视觉与听觉信息处理国家重点实验室,北京大学计算机科学与技术系,北京大学计算机科学与技术系北京,北京,北京大学计算机科学与技术系北京,北京,北京
王腾蛟
.
计算机研究与发展,
2004,
(10)
:1786
-1792
[6]
一种提高中文搜索引擎检索质量的HTML解析方法
[J].
宋睿华
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机科学与技术系
宋睿华
;
马少平
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机科学与技术系
马少平
;
陈刚
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机科学与技术系
陈刚
;
李景阳
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机科学与技术系
李景阳
.
中文信息学报,
2003,
(04)
:19
-26
[7]
Tag tree template for Web information and schema extraction
[J].
Ji, Xiangwen
论文数:
0
引用数:
0
h-index:
0
机构:
Fudan Univ, Sch Comp Sci, Shanghai 200433, Peoples R China
Fudan Univ, Sch Comp Sci, Shanghai 200433, Peoples R China
Ji, Xiangwen
;
Zeng, Jianping
论文数:
0
引用数:
0
h-index:
0
机构:
Fudan Univ, Sch Comp Sci, Shanghai 200433, Peoples R China
Fudan Univ, Sch Comp Sci, Shanghai 200433, Peoples R China
Zeng, Jianping
;
Zhang, Shiyong
论文数:
0
引用数:
0
h-index:
0
机构:
Fudan Univ, Sch Comp Sci, Shanghai 200433, Peoples R China
Fudan Univ, Sch Comp Sci, Shanghai 200433, Peoples R China
Zhang, Shiyong
;
Wu, Chengrong
论文数:
0
引用数:
0
h-index:
0
机构:
Fudan Univ, Sch Comp Sci, Shanghai 200433, Peoples R China
Fudan Univ, Sch Comp Sci, Shanghai 200433, Peoples R China
Wu, Chengrong
.
EXPERT SYSTEMS WITH APPLICATIONS,
2010,
37
(12)
:8492
-8498
[8]
Wrapper generation for semi-structured Internet sources[J] . Naveen Ashish,Craig A. Knoblock. ACM SIGMOD Record . 1997 (4)
←
1
→