学术探索
学术期刊
学术作者
新闻热点
数据分析
智能评审
基于HTML标记用途分析的网页正文提取技术
被引:35
作者
:
论文数:
引用数:
h-index:
机构:
常红要
论文数:
引用数:
h-index:
机构:
朱征宇
论文数:
引用数:
h-index:
机构:
陈烨
论文数:
引用数:
h-index:
机构:
张鹏
论文数:
引用数:
h-index:
机构:
曾丽芳
机构
:
[1]
重庆大学计算机学院
来源
:
计算机工程与设计
|
2010年
/ 31卷
/ 24期
关键词
:
HTML网页;
数据挖掘;
内容抽取;
噪音数据;
元素删除法;
D O I
:
10.16208/j.issn1000-7024.2010.24.046
中图分类号
:
TP393.092 [];
学科分类号
:
摘要
:
通过分析噪音数据特点和它所产生的影响,利用HTML的结构特征,提出了一种基于区域分块的HTML元素删除法,可用于网页正文的自动提取。实验结果表明,该方法能有效地得到大多数HTML网页的主体内容部分。针对HTML文件的解析方法不仅可以用于提取HTML文件的主体文本,也可以用于得到HTML文件中其它HTML元素的内容。
引用
收藏
页码:5187 / 5191
页数:5
相关论文
共 14 条
[1]
基于用户行为和遗传算法的用户建模研究
[D].
论文数:
引用数:
h-index:
机构:
何兴无
.
重庆大学,
2007
[2]
基于Web的HTML网页清洗技术的研究与实现
[D].
论文数:
引用数:
h-index:
机构:
刘斌
.
华北电力大学(北京),
2007
[3]
基于网页分块的正文信息提取方法
[J].
论文数:
引用数:
h-index:
机构:
黄玲
;
论文数:
引用数:
h-index:
机构:
陈龙
.
计算机应用,
2008,
28(S2)
(S2)
:326
-328
[4]
基于正则表达式的信息滤除算法
[J].
论文数:
引用数:
h-index:
机构:
高丙坤
;
论文数:
引用数:
h-index:
机构:
成战刚
;
李倩
论文数:
0
引用数:
0
h-index:
0
机构:
中国石油测井有限公司长庆事业部解释中心
大庆石油学院电气信息工程学院
李倩
.
现代计算机(专业版),
2008,
(02)
:54
-55+64
[5]
基于统计的中文网页正文抽取的研究
[J].
赵文
论文数:
0
引用数:
0
h-index:
0
机构:
武汉理工大学计算机科学与技术学院
赵文
;
论文数:
引用数:
h-index:
机构:
唐建雄
;
论文数:
引用数:
h-index:
机构:
高庆锋
.
电脑知识与技术,
2008,
(01)
:120
-123
[6]
网页清洗系统基于静态正则表达式的实现
[J].
赵仁杰
论文数:
0
引用数:
0
h-index:
0
机构:
西南科技大学计算机应用与科学学院
赵仁杰
;
论文数:
引用数:
h-index:
机构:
李众立
.
微计算机信息,
2007,
(36)
:226
-227
[7]
基于FFT的网页正文提取算法研究与实现
[J].
李蕾
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院声学研究所DSP中心
李蕾
;
论文数:
引用数:
h-index:
机构:
王劲林
;
白鹤
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院声学研究所DSP中心
白鹤
;
胡晶晶
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院声学研究所DSP中心
胡晶晶
.
计算机工程与应用 ,
2007,
(30)
:148
-151
[8]
基于分块的网页正文信息提取算法研究
[J].
黄文蓓
论文数:
0
引用数:
0
h-index:
0
机构:
华东师范大学计算机科学技术系
黄文蓓
;
论文数:
引用数:
h-index:
机构:
杨静
;
论文数:
引用数:
h-index:
机构:
顾君忠
.
计算机应用,
2007,
(S1)
:24
-26+30
[9]
基于标记窗的网页正文信息提取方法
[J].
赵欣欣
论文数:
0
引用数:
0
h-index:
0
机构:
中国兵器工业计算机应用技术研究所
中国兵器工业计算机应用技术研究所
赵欣欣
;
论文数:
引用数:
h-index:
机构:
索红光
;
刘玉树
论文数:
0
引用数:
0
h-index:
0
机构:
北京理工大学计算机科学技术学院计算机科学工程系
中国兵器工业计算机应用技术研究所
刘玉树
.
计算机应用研究,
2007,
(03)
:144
-145+180
[10]
基于Web挖掘的网页清洗技术
[J].
李嘉佑
论文数:
0
引用数:
0
h-index:
0
机构:
中国科技大学
中国科技大学
李嘉佑
;
论文数:
引用数:
h-index:
机构:
贾自艳
;
论文数:
引用数:
h-index:
机构:
何清
;
论文数:
引用数:
h-index:
机构:
史忠植
.
计算机工程与应用 ,
2006,
(25)
:98
-101
←
1
2
→
共 14 条
[1]
基于用户行为和遗传算法的用户建模研究
[D].
论文数:
引用数:
h-index:
机构:
何兴无
.
重庆大学,
2007
[2]
基于Web的HTML网页清洗技术的研究与实现
[D].
论文数:
引用数:
h-index:
机构:
刘斌
.
华北电力大学(北京),
2007
[3]
基于网页分块的正文信息提取方法
[J].
论文数:
引用数:
h-index:
机构:
黄玲
;
论文数:
引用数:
h-index:
机构:
陈龙
.
计算机应用,
2008,
28(S2)
(S2)
:326
-328
[4]
基于正则表达式的信息滤除算法
[J].
论文数:
引用数:
h-index:
机构:
高丙坤
;
论文数:
引用数:
h-index:
机构:
成战刚
;
李倩
论文数:
0
引用数:
0
h-index:
0
机构:
中国石油测井有限公司长庆事业部解释中心
大庆石油学院电气信息工程学院
李倩
.
现代计算机(专业版),
2008,
(02)
:54
-55+64
[5]
基于统计的中文网页正文抽取的研究
[J].
赵文
论文数:
0
引用数:
0
h-index:
0
机构:
武汉理工大学计算机科学与技术学院
赵文
;
论文数:
引用数:
h-index:
机构:
唐建雄
;
论文数:
引用数:
h-index:
机构:
高庆锋
.
电脑知识与技术,
2008,
(01)
:120
-123
[6]
网页清洗系统基于静态正则表达式的实现
[J].
赵仁杰
论文数:
0
引用数:
0
h-index:
0
机构:
西南科技大学计算机应用与科学学院
赵仁杰
;
论文数:
引用数:
h-index:
机构:
李众立
.
微计算机信息,
2007,
(36)
:226
-227
[7]
基于FFT的网页正文提取算法研究与实现
[J].
李蕾
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院声学研究所DSP中心
李蕾
;
论文数:
引用数:
h-index:
机构:
王劲林
;
白鹤
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院声学研究所DSP中心
白鹤
;
胡晶晶
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院声学研究所DSP中心
胡晶晶
.
计算机工程与应用 ,
2007,
(30)
:148
-151
[8]
基于分块的网页正文信息提取算法研究
[J].
黄文蓓
论文数:
0
引用数:
0
h-index:
0
机构:
华东师范大学计算机科学技术系
黄文蓓
;
论文数:
引用数:
h-index:
机构:
杨静
;
论文数:
引用数:
h-index:
机构:
顾君忠
.
计算机应用,
2007,
(S1)
:24
-26+30
[9]
基于标记窗的网页正文信息提取方法
[J].
赵欣欣
论文数:
0
引用数:
0
h-index:
0
机构:
中国兵器工业计算机应用技术研究所
中国兵器工业计算机应用技术研究所
赵欣欣
;
论文数:
引用数:
h-index:
机构:
索红光
;
刘玉树
论文数:
0
引用数:
0
h-index:
0
机构:
北京理工大学计算机科学技术学院计算机科学工程系
中国兵器工业计算机应用技术研究所
刘玉树
.
计算机应用研究,
2007,
(03)
:144
-145+180
[10]
基于Web挖掘的网页清洗技术
[J].
李嘉佑
论文数:
0
引用数:
0
h-index:
0
机构:
中国科技大学
中国科技大学
李嘉佑
;
论文数:
引用数:
h-index:
机构:
贾自艳
;
论文数:
引用数:
h-index:
机构:
何清
;
论文数:
引用数:
h-index:
机构:
史忠植
.
计算机工程与应用 ,
2006,
(25)
:98
-101
←
1
2
→