基于统计的网页正文信息抽取方法的研究

被引:87
作者
孙承杰
关毅
机构
[1] 哈尔滨工业大学计算机学院
[2] 哈尔滨工业大学计算机学院 黑龙江哈尔滨
[3] 黑龙江哈尔滨
关键词
计算机应用; 中文信息处理; 网页数据抽取; 包装器;
D O I
暂无
中图分类号
TP393 [计算机网络];
学科分类号
081201 ; 1201 ;
摘要
为了把自然语言处理技术有效的运用到网页文档中 ,本文提出了一种依靠统计信息 ,从中文新闻类网页中抽取正文内容的方法。该方法先根据网页中的HTML标记把网页表示成一棵树 ,然后利用树中每个结点包含的中文字符数从中选择包含正文信息的结点。该方法克服了传统的网页内容抽取方法需要针对不同的数据源构造不同的包装器的缺点 ,具有简单、准确的特点 ,试验表明该方法的抽取准确率可以达到 95 %以上。采用该方法实现的网页文本抽取工具目前为一个面向旅游领域的问答系统提供语料支持 ,很好的满足了问答系统的需求
引用
收藏
页码:17 / 22
页数:6
相关论文
共 3 条
[1]   基于Ontology的Web内容二阶段半自动提取方法 [J].
高军 ;
王腾蛟 ;
杨冬青 ;
唐世渭 .
计算机学报, 2004, (03) :310-318
[2]   一种提高中文搜索引擎检索质量的HTML解析方法 [J].
宋睿华 ;
马少平 ;
陈刚 ;
李景阳 .
中文信息学报, 2003, (04) :19-26
[3]   基于样本实例的Web信息抽取 [J].
张绍华 ;
徐林昊 ;
杨文柱 ;
薛文玲 ;
李天柱 .
河北大学学报(自然科学版), 2001, (04) :431-437