基于统计的中文网页正文抽取的研究

被引:27
作者
赵文
唐建雄
高庆锋
机构
[1] 武汉理工大学计算机科学与技术学院
关键词
中文信息处理; 信息抽取; 正文抽取;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
信息抽取技术是一种广泛运用于互联网的数据挖掘技术。其目的是从互联网海量数据中抽取有意义、有价值的数据和信息,从而能更好的利用互联网资源。文中采用一种统计网页特征的方法,将中文网页中的正文部分抽取出来。该方法首先将网页表示成基于XML的DOM树形式,利用统计的节点信息从树中过滤掉噪音数据节点,最后再选取正文节点。该方法相比传统的基于包装器的抽取方法,具有简单,实用的特点,试验结果表明,该抽取方法准确率达到90%以上,具有很好的实用价值。
引用
收藏
页码:120 / 123
页数:4
相关论文
共 5 条
[1]
数据挖掘.[M].朱明编著;.中国科学技术大学出版社.2002,
[2]
基于双层决策的新闻网页正文精确抽取 [J].
胡国平 ;
张巍 ;
王仁华 .
中文信息学报, 2006, (06) :1-9+103
[3]
基于Web的新闻信息抽取 [J].
朱永盛 ;
武港山 .
计算机工程, 2006, (10) :74-76
[4]
基于统计的网页正文信息抽取方法的研究 [J].
孙承杰 ;
关毅 .
中文信息学报, 2004, (05) :17-22
[5]
信息抽取研究综述 [J].
李保利 ;
陈玉忠 ;
俞士汶 .
计算机工程与应用, 2003, (10) :1-5+66