网页信息抽取方法的研究

被引:3
作者
徐铁 [1 ]
耿佳宁 [2 ]
机构
[1] 黑龙江省电子信息产品监督检验院
[2] 中国政法大学
关键词
网页抽取; 网页模板; 网页相似度; 网页聚类;
D O I
10.13274/j.cnki.hdzj.2009.04.034
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
信息抽取技术属于人工智能的一个分支。使用信息抽取技术可以人性化地从网页中把人们需要的信息抽取出来。文中提出的信息抽取技术是基于DOM和网页模板的一种归纳网页模板的新方法,它能很好地对各种布局元素的网页进行模板归纳,同时给出核心算法的C++实现。
引用
收藏
页码:112 / 115
页数:4
相关论文
共 6 条
[1]   Web数据抽取技术研究进展 [J].
张成洪 ;
古晓洪 ;
白延红 .
计算机科学, 2004, (02) :129-131+151
[2]   一种基于相似度分析的主题提取和发现算法 [J].
王晓宇 ;
熊方 ;
凌波 ;
周傲英 .
软件学报, 2003, (09) :1578-1585
[3]   网络信息的自然语言检索 [J].
倪莉 .
图书馆理论与实践, 2002, (04) :38-39
[4]   基于DOM的Web信息提取 [J].
李效东 ;
顾毓清 .
计算机学报, 2002, (05) :526-533
[5]   构造Web文档中半结构化信息的技术 [J].
黄豫清 ;
戚广智 ;
张福炎 .
计算机辅助设计与图形学学报, 2000, (03) :230-234
[6]   Machine learning for information extraction in informal domains [J].
Freitag, Dayne .
Machine Learning, 2000, 39 (02) :169-202