基于网页分块的正文信息提取方法

被引:14
作者
黄玲
陈龙
机构
[1] 重庆邮电大学计算机科学与技术研究所
关键词
Web信息抽取; 主题内容块; 网页正文信息;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
网页主题信息通常湮没在大量的无关文字和HTML标记中,给应用程序迅速获取主题信息增加的难度。提出了一种基于网页分块的正文信息抽取方法。该方法首先识别和提取网页正文内容块,然后利用正则表达式和简单的判别规则内容块滤除内容块中的HTML标记和无关文字。实验证明,该方法能够准确地提取网页正文信息,且通用性较强,易于实现。
引用
收藏
页码:326 / 328
页数:3
相关论文
共 4 条
[1]   基于页面标签的Web结构化数据抽取 [J].
任仲晟 ;
薛永生 .
计算机科学, 2007, (10) :133-136
[2]   一种Web主题文本通用提取方法 [J].
蒲强 ;
李鑫 ;
刘启和 ;
杨国纬 .
计算机应用, 2007, (06) :1394-1396
[3]   基于分块的网页正文信息提取算法研究 [J].
黄文蓓 ;
杨静 ;
顾君忠 .
计算机应用, 2007, (S1) :24-26+30
[4]   基于Ontology的Web内容二阶段半自动提取方法 [J].
高军 ;
王腾蛟 ;
杨冬青 ;
唐世渭 .
计算机学报, 2004, (03) :310-318