共 6 条
网页信息抽取方法的研究
被引:3
作者:
徐铁
[1
]
耿佳宁
[2
]
机构:
[1] 黑龙江省电子信息产品监督检验院
[2] 中国政法大学
来源:
关键词:
网页抽取;
网页模板;
网页相似度;
网页聚类;
D O I:
10.13274/j.cnki.hdzj.2009.04.034
中图分类号:
TP391.1 [文字信息处理];
学科分类号:
081203 ;
0835 ;
摘要:
信息抽取技术属于人工智能的一个分支。使用信息抽取技术可以人性化地从网页中把人们需要的信息抽取出来。文中提出的信息抽取技术是基于DOM和网页模板的一种归纳网页模板的新方法,它能很好地对各种布局元素的网页进行模板归纳,同时给出核心算法的C++实现。
引用
收藏
页码:112 / 115
页数:4
相关论文