基于Web的新闻信息抽取

被引:12
作者
朱永盛 [1 ]
武港山 [2 ]
机构
[1] 南京大学计算机软件新技术国家重点实验室
[2] 南京大学计算机科学与技术系
关键词
信息抽取; 包装器; DOM; 抽取规则;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
随着互联网的普及,信息技术的发展,形成了大量的新闻信息资源。从海量的新闻信息中抽取出有用的资源,是当前迫切需要解决的问题。该文在分析新闻网页结构的基础上,结合了基于DOM的结构抽取和基于文本特征模式抽取两种处理技术的优点,提出了基于Web新闻网页的半自动化抽取技术,自动下载了有用的Web页面,抽取了所需的新闻信息。最后,该文描述了一个面向奥运新闻的信息抽取系统,并给出了该系统的实验结果。
引用
收藏
页码:74 / 76
页数:3
相关论文
共 1 条