基于HTML标记用途分析的网页正文提取技术

被引：35

作者：

常红要

朱征宇

陈烨

张鹏

曾丽芳

机构：

[1] 重庆大学计算机学院

来源：

计算机工程与设计 | 2010年 / 31卷 / 24期

关键词：

HTML网页; 数据挖掘; 内容抽取; 噪音数据; 元素删除法;

D O I：

10.16208/j.issn1000-7024.2010.24.046

中图分类号：

TP393.092 [];

学科分类号：

摘要：

通过分析噪音数据特点和它所产生的影响,利用HTML的结构特征,提出了一种基于区域分块的HTML元素删除法,可用于网页正文的自动提取。实验结果表明,该方法能有效地得到大多数HTML网页的主体内容部分。针对HTML文件的解析方法不仅可以用于提取HTML文件的主体文本,也可以用于得到HTML文件中其它HTML元素的内容。

引用

收藏

页码：5187 / 5191

页数：5

相关论文

共 14 条

[1]

基于用户行为和遗传算法的用户建模研究 [D].

何兴无 .

重庆大学,

2007

[2]

基于Web的HTML网页清洗技术的研究与实现 [D].

刘斌 .

华北电力大学（北京）,

2007

[3]

基于网页分块的正文信息提取方法 [J].

黄玲 ;

陈龙 .

计算机应用, 2008, 28(S2) (S2) :326-328

[4]

基于正则表达式的信息滤除算法 [J].

高丙坤 ;

成战刚 ;

李倩 .

现代计算机(专业版), 2008, (02) :54-55+64

[5]

基于统计的中文网页正文抽取的研究 [J].

赵文 ;

唐建雄 ;

高庆锋 .

电脑知识与技术, 2008, (01) :120-123

[6]

网页清洗系统基于静态正则表达式的实现 [J].

赵仁杰 ;

李众立 .

微计算机信息, 2007, (36) :226-227

[7]

基于FFT的网页正文提取算法研究与实现 [J].

李蕾 ;

王劲林 ;

白鹤 ;

胡晶晶 .

计算机工程与应用 , 2007, (30) :148-151

[8]

基于分块的网页正文信息提取算法研究 [J].

黄文蓓 ;

杨静 ;

顾君忠 .

计算机应用, 2007, (S1) :24-26+30

[9]

基于标记窗的网页正文信息提取方法 [J].

赵欣欣 ;

索红光 ;

刘玉树 .

计算机应用研究, 2007, (03) :144-145+180

[10]

基于Web挖掘的网页清洗技术 [J].

李嘉佑 ;

贾自艳 ;

何清 ;

史忠植 .

计算机工程与应用 , 2006, (25) :98-101