学术探索
学术期刊
学术作者
新闻热点
数据分析
智能评审
基于DOM的网页主题信息的抽取
被引:49
作者
:
论文数:
引用数:
h-index:
机构:
刘军
论文数:
引用数:
h-index:
机构:
张净
机构
:
[1]
武汉理工大学计算机科学与技术学院
来源
:
计算机应用与软件
|
2010年
/ 27卷
/ 05期
关键词
:
DOM;
主题;
信息抽取;
分块;
剪枝;
D O I
:
暂无
中图分类号
:
TP393.092 [];
学科分类号
:
摘要
:
随着Internet的发展,Web页面信息量不断加大,信息密集程度不断加强。但Web页面的主题信息通常不太明确,抽取主题信息也比较困难。针对这一难题,提出一种算法:构建文档对象模型DOM(Document Object Model)树,然后针对HTML半结构特征的不足,为DOM添加显示、语义(链接数、非链接文字数、高度、宽度)等属性,并提出一种聚类规则来对其进行分块,最后对其进行剪枝,删除掉无用的信息,提取主题信息。实验表明,该方法能够准确抽取主题信息。
引用
收藏
页码:188 / 190
页数:3
相关论文
共 4 条
[1]
Wrapping web data into XML.[J].Wei Han;David Buttler;Calton Pu.ACM SIGMOD Record.2001, 3
[2]
基于标记树表示方法的页面结构分析
[J].
常育红
论文数:
0
引用数:
0
h-index:
0
机构:
北京九州公司
常育红
;
姜哲
论文数:
0
引用数:
0
h-index:
0
机构:
北京九州公司
姜哲
;
朱小燕
论文数:
0
引用数:
0
h-index:
0
机构:
北京九州公司
朱小燕
;
不详
论文数:
0
引用数:
0
h-index:
0
机构:
北京九州公司
不详
.
计算机工程与应用 ,
2004,
(16)
:129
-132
[3]
基于DOM的Web信息提取
[J].
论文数:
引用数:
h-index:
机构:
李效东
;
论文数:
引用数:
h-index:
机构:
顾毓清
.
计算机学报,
2002,
(05)
:526
-533
[4]
一种HTML网页净化方法.[J].张志刚;陈静;李晓明;.情报学报.2004, 04
←
1
→
共 4 条
[1]
Wrapping web data into XML.[J].Wei Han;David Buttler;Calton Pu.ACM SIGMOD Record.2001, 3
[2]
基于标记树表示方法的页面结构分析
[J].
常育红
论文数:
0
引用数:
0
h-index:
0
机构:
北京九州公司
常育红
;
姜哲
论文数:
0
引用数:
0
h-index:
0
机构:
北京九州公司
姜哲
;
朱小燕
论文数:
0
引用数:
0
h-index:
0
机构:
北京九州公司
朱小燕
;
不详
论文数:
0
引用数:
0
h-index:
0
机构:
北京九州公司
不详
.
计算机工程与应用 ,
2004,
(16)
:129
-132
[3]
基于DOM的Web信息提取
[J].
论文数:
引用数:
h-index:
机构:
李效东
;
论文数:
引用数:
h-index:
机构:
顾毓清
.
计算机学报,
2002,
(05)
:526
-533
[4]
一种HTML网页净化方法.[J].张志刚;陈静;李晓明;.情报学报.2004, 04
←
1
→