基于统计的网页正文信息抽取方法的研究

被引：87

作者：

孙承杰

关毅

机构：

[1] 哈尔滨工业大学计算机学院

[2] 哈尔滨工业大学计算机学院黑龙江哈尔滨

[3] 黑龙江哈尔滨

来源：

中文信息学报 | 2004年 / 05期

关键词：

计算机应用; 中文信息处理; 网页数据抽取; 包装器;

D O I：

暂无

中图分类号：

TP393 [计算机网络];

学科分类号：

081201 ; 1201 ;

摘要：

为了把自然语言处理技术有效的运用到网页文档中 ,本文提出了一种依靠统计信息 ,从中文新闻类网页中抽取正文内容的方法。该方法先根据网页中的HTML标记把网页表示成一棵树 ,然后利用树中每个结点包含的中文字符数从中选择包含正文信息的结点。该方法克服了传统的网页内容抽取方法需要针对不同的数据源构造不同的包装器的缺点 ,具有简单、准确的特点 ,试验表明该方法的抽取准确率可以达到 95 %以上。采用该方法实现的网页文本抽取工具目前为一个面向旅游领域的问答系统提供语料支持 ,很好的满足了问答系统的需求

引用

页码：17 / 22

页数：6