基于HTML标记用途分析的网页正文提取技术

被引:35
作者
常红要
朱征宇
陈烨
张鹏
曾丽芳
机构
[1] 重庆大学计算机学院
关键词
HTML网页; 数据挖掘; 内容抽取; 噪音数据; 元素删除法;
D O I
10.16208/j.issn1000-7024.2010.24.046
中图分类号
TP393.092 [];
学科分类号
摘要
通过分析噪音数据特点和它所产生的影响,利用HTML的结构特征,提出了一种基于区域分块的HTML元素删除法,可用于网页正文的自动提取。实验结果表明,该方法能有效地得到大多数HTML网页的主体内容部分。针对HTML文件的解析方法不仅可以用于提取HTML文件的主体文本,也可以用于得到HTML文件中其它HTML元素的内容。
引用
收藏
页码:5187 / 5191
页数:5
相关论文
共 14 条
[1]
基于用户行为和遗传算法的用户建模研究 [D]. 
何兴无 .
重庆大学,
2007
[2]
基于Web的HTML网页清洗技术的研究与实现 [D]. 
刘斌 .
华北电力大学(北京),
2007
[3]
基于网页分块的正文信息提取方法 [J].
黄玲 ;
陈龙 .
计算机应用, 2008, 28(S2) (S2) :326-328
[4]
基于正则表达式的信息滤除算法 [J].
高丙坤 ;
成战刚 ;
李倩 .
现代计算机(专业版), 2008, (02) :54-55+64
[5]
基于统计的中文网页正文抽取的研究 [J].
赵文 ;
唐建雄 ;
高庆锋 .
电脑知识与技术, 2008, (01) :120-123
[6]
网页清洗系统基于静态正则表达式的实现 [J].
赵仁杰 ;
李众立 .
微计算机信息, 2007, (36) :226-227
[7]
基于FFT的网页正文提取算法研究与实现 [J].
李蕾 ;
王劲林 ;
白鹤 ;
胡晶晶 .
计算机工程与应用 , 2007, (30) :148-151
[8]
基于分块的网页正文信息提取算法研究 [J].
黄文蓓 ;
杨静 ;
顾君忠 .
计算机应用, 2007, (S1) :24-26+30
[9]
基于标记窗的网页正文信息提取方法 [J].
赵欣欣 ;
索红光 ;
刘玉树 .
计算机应用研究, 2007, (03) :144-145+180
[10]
基于Web挖掘的网页清洗技术 [J].
李嘉佑 ;
贾自艳 ;
何清 ;
史忠植 .
计算机工程与应用 , 2006, (25) :98-101