有效HTML文本信息抽取方法的研究

被引:15
作者
韩忠明
李文正
莫倩
机构
[1] 北京工商大学计算机学院
关键词
网页; 信息抽取; 机器学习; 统计;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
从新闻网页和博客网页中抽取出正文内容是一个非常有意义的研究问题,但是多数网页中含有大量与正文无关的噪声内容,导致很难从网页中获取正确的文本信息。分析了中文新闻与博客网页的正文特征,用实验表明了利用HTML与文本的密度比可以进行文本的识别与抽取。提出了机器学习、统计估计以及FDR三种HLML正文抽取方法,并作了大量的实验比较和分析。实验结果表明,该算法可以有效地过滤噪声而且算法的复杂度很低,效率与效果均达到一个很好的平衡。
引用
收藏
页码:3568 / 3571+3574 +3574
页数:5
相关论文
共 6 条
[1]   基于标记窗的网页正文信息提取方法 [J].
赵欣欣 ;
索红光 ;
刘玉树 .
计算机应用研究, 2007, (03) :144-145+180
[2]   基于双层决策的新闻网页正文精确抽取 [J].
胡国平 ;
张巍 ;
王仁华 .
中文信息学报, 2006, (06) :1-9+103
[3]   模板化网页主题信息的提取方法 [J].
欧健文 ;
董守斌 ;
蔡斌 .
清华大学学报(自然科学版), 2005, (S1) :1743-1747
[4]   基于统计的网页正文信息抽取方法的研究 [J].
孙承杰 ;
关毅 .
中文信息学报, 2004, (05) :17-22
[5]   基于标记树表示方法的页面结构分析 [J].
常育红 ;
姜哲 ;
朱小燕 ;
不详 .
计算机工程与应用 , 2004, (16) :129-132
[6]  
Towards automatic data ex-traction from large Web site .2 CRESCENZI V,ROADRUNNER G M. Proc of the 26th International Con-ference on Very Large Database Systems . 2001