基于XML的网页信息自动抽取

被引：24

作者：

周津

朱明

郑全

机构：

[1] 中国科学技术大学自动化系,中国科学技术大学自动化系,中国科学技术大学自动化系安徽合肥,安徽合肥,安徽合肥

来源：

计算机应用 | 2004年 / S1期

关键词：

信息抽取; XML; WWW;

D O I：

暂无

中图分类号：

TP393.09 [];

学科分类号：

摘要：

文章提出了一种基于XML的网页信息自动抽取的方法和框架 ,通过利用网页中信息的结构相似性和词法相似性 ,自动学习出网页信息的记录模式并归纳出相应的词法模式 ,从而避免了繁重的人为样本收集与标记工作 ,也免去了人工给定模式的工作 ,具备很强的自动性。同时自动归纳出的词法模式还可以应用到其他网站和非结构化文本中。

引用

页码：225 / 227

页数：3