基于Web的新闻信息抽取

被引：12

作者：

朱永盛 ^{[1
]}

武港山 ^{[2
]}

机构：

[1] 南京大学计算机软件新技术国家重点实验室

[2] 南京大学计算机科学与技术系

来源：

计算机工程 | 2006年 / 10期

关键词：

信息抽取; 包装器; DOM; 抽取规则;

D O I：

暂无

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

摘要：

随着互联网的普及,信息技术的发展,形成了大量的新闻信息资源。从海量的新闻信息中抽取出有用的资源,是当前迫切需要解决的问题。该文在分析新闻网页结构的基础上,结合了基于DOM的结构抽取和基于文本特征模式抽取两种处理技术的优点,提出了基于Web新闻网页的半自动化抽取技术,自动下载了有用的Web页面,抽取了所需的新闻信息。最后,该文描述了一个面向奥运新闻的信息抽取系统,并给出了该系统的实验结果。

引用

页码：74 / 76

页数：3