学术探索
学术期刊
学术作者
新闻热点
数据分析
智能评审
基于XML的网页信息自动抽取
被引:24
作者
:
周津
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学技术大学自动化系,中国科学技术大学自动化系,中国科学技术大学自动化系安徽合肥,安徽合肥,安徽合肥
周津
论文数:
引用数:
h-index:
机构:
朱明
论文数:
引用数:
h-index:
机构:
郑全
机构
:
[1]
中国科学技术大学自动化系,中国科学技术大学自动化系,中国科学技术大学自动化系安徽合肥,安徽合肥,安徽合肥
来源
:
计算机应用
|
2004年
/ S1期
关键词
:
信息抽取;
XML;
WWW;
D O I
:
暂无
中图分类号
:
TP393.09 [];
学科分类号
:
摘要
:
文章提出了一种基于XML的网页信息自动抽取的方法和框架 ,通过利用网页中信息的结构相似性和词法相似性 ,自动学习出网页信息的记录模式并归纳出相应的词法模式 ,从而避免了繁重的人为样本收集与标记工作 ,也免去了人工给定模式的工作 ,具备很强的自动性。同时自动归纳出的词法模式还可以应用到其他网站和非结构化文本中。
引用
收藏
页码:225 / 227
页数:3
相关论文
未找到相关数据
未找到相关数据