共 1 条
基于Web的新闻信息抽取
被引:12
作者:
朱永盛
[1
]
武港山
[2
]
机构:
[1] 南京大学计算机软件新技术国家重点实验室
[2] 南京大学计算机科学与技术系
来源:
关键词:
信息抽取;
包装器;
DOM;
抽取规则;
D O I:
暂无
中图分类号:
TP391.1 [文字信息处理];
学科分类号:
摘要:
随着互联网的普及,信息技术的发展,形成了大量的新闻信息资源。从海量的新闻信息中抽取出有用的资源,是当前迫切需要解决的问题。该文在分析新闻网页结构的基础上,结合了基于DOM的结构抽取和基于文本特征模式抽取两种处理技术的优点,提出了基于Web新闻网页的半自动化抽取技术,自动下载了有用的Web页面,抽取了所需的新闻信息。最后,该文描述了一个面向奥运新闻的信息抽取系统,并给出了该系统的实验结果。
引用
收藏
页码:74 / 76
页数:3
相关论文