基于统计的中文网页正文抽取的研究

被引：27

作者：

赵文

唐建雄

高庆锋

机构：

[1] 武汉理工大学计算机科学与技术学院

来源：

电脑知识与技术 | 2008年 / 01期

关键词：

中文信息处理; 信息抽取; 正文抽取;

D O I：

暂无

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

120506 [数字人文];

摘要：

信息抽取技术是一种广泛运用于互联网的数据挖掘技术。其目的是从互联网海量数据中抽取有意义、有价值的数据和信息,从而能更好的利用互联网资源。文中采用一种统计网页特征的方法,将中文网页中的正文部分抽取出来。该方法首先将网页表示成基于XML的DOM树形式,利用统计的节点信息从树中过滤掉噪音数据节点,最后再选取正文节点。该方法相比传统的基于包装器的抽取方法,具有简单,实用的特点,试验结果表明,该抽取方法准确率达到90%以上,具有很好的实用价值。

引用

页码：120 / 123

页数：4

共 5 条

[1]

数据挖掘.[M].朱明编著;.中国科学技术大学出版社.2002,

[2]

基于双层决策的新闻网页正文精确抽取 [J].