学术探索
学术期刊
学术作者
新闻热点
数据分析
智能评审
基于结构与内容的网页主题信息提取研究
被引:40
作者
:
吴鹏飞
论文数:
0
引用数:
0
h-index:
0
机构:
山东师范大学传播学院
吴鹏飞
论文数:
引用数:
h-index:
机构:
孟祥增
刘俊晓
论文数:
0
引用数:
0
h-index:
0
机构:
山东师范大学传播学院
刘俊晓
论文数:
引用数:
h-index:
机构:
马凤娟
机构
:
[1]
山东师范大学传播学院
来源
:
山东大学学报(理学版)
|
2006年
/ 03期
关键词
:
映射表;
启发式规则;
HTML;
区域分割;
向量空间模型;
D O I
:
暂无
中图分类号
:
TP393.092 [];
TP391.1 [文字信息处理];
学科分类号
:
120506
[数字人文]
;
摘要
:
结合HTML网页内部特征与外部的结构布局,提出采用映射表这种网页映射模式对网页视图进行变换,基于结构与启发式规则对网页进行区域分割与识别,并利用向量空间模型对网页内容分析,从而准确得到具有高语义内聚性的网页主题内容.实验结果表明,此方法对各种复杂结构的网页主题信息提取较为理想.
引用
收藏
页码:131 / 134
页数:4
相关论文
共 8 条
[1]
基于标记树的Web页面区域划分和搜索方法
[J].
论文数:
引用数:
h-index:
机构:
胡飞
.
计算机科学,
2005,
(08)
:182
-185
[2]
基于分块的网页信息解析器的研究与设计
[J].
论文数:
引用数:
h-index:
机构:
于满泉
;
陈铁睿
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所,中国科学院计算技术研究所,中国科学院计算技术研究所北京,中国科学院研究生院,北京,北京,中国科学院研究生院,北京,北京
陈铁睿
;
论文数:
引用数:
h-index:
机构:
许洪波
.
计算机应用,
2005,
(04)
:974
-976
[3]
基于DOM的网页主题信息自动提取
[J].
王琦
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学视觉与听觉信息处理国家重点实验室
王琦
;
论文数:
引用数:
h-index:
机构:
唐世渭
;
杨冬青
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学视觉与听觉信息处理国家重点实验室
杨冬青
;
王腾蛟
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学视觉与听觉信息处理国家重点实验室
王腾蛟
.
计算机研究与发展,
2004,
(10)
:1786
-1792
[4]
基于标记树表示方法的页面结构分析
[J].
常育红
论文数:
0
引用数:
0
h-index:
0
机构:
北京九州公司
常育红
;
姜哲
论文数:
0
引用数:
0
h-index:
0
机构:
北京九州公司
姜哲
;
朱小燕
论文数:
0
引用数:
0
h-index:
0
机构:
北京九州公司
朱小燕
;
不详
论文数:
0
引用数:
0
h-index:
0
机构:
北京九州公司
不详
.
计算机工程与应用 ,
2004,
(16)
:129
-132
[5]
网页版面中区域几何信息的确定
[J].
论文数:
引用数:
h-index:
机构:
朱精南
;
论文数:
引用数:
h-index:
机构:
赵明生
.
计算机工程,
2004,
(10)
:45
-48
[6]
Web页面信息块的自动分割
[J].
瞿有利
论文数:
0
引用数:
0
h-index:
0
机构:
富士通研究开发中心有限公司
瞿有利
;
于浩
论文数:
0
引用数:
0
h-index:
0
机构:
富士通研究开发中心有限公司
于浩
;
徐国伟
论文数:
0
引用数:
0
h-index:
0
机构:
富士通研究开发中心有限公司
徐国伟
;
西野文人
论文数:
0
引用数:
0
h-index:
0
机构:
富士通研究开发中心有限公司
西野文人
.
中文信息学报,
2004,
(01)
:6
-13
[7]
Web页面清洗技术的研究与实现
[J].
周源远
论文数:
0
引用数:
0
h-index:
0
机构:
南京大学软件新技术国家重点实验室,南京大学计算机科学与技术系,南京大学软件新技术国家重点实验室,南京大学计算机科学与技术系,南京大学软件新技术国家重点实验室,南京大学计算机科学与技术系,南京大学软件新技术国家重点实验室,南京大学计算机科学与技术系南京,南
周源远
;
论文数:
引用数:
h-index:
机构:
王继成
;
郑刚
论文数:
0
引用数:
0
h-index:
0
机构:
南京大学软件新技术国家重点实验室,南京大学计算机科学与技术系,南京大学软件新技术国家重点实验室,南京大学计算机科学与技术系,南京大学软件新技术国家重点实验室,南京大学计算机科学与技术系,南京大学软件新技术国家重点实验室,南京大学计算机科学与技术系南京,南
郑刚
;
论文数:
引用数:
h-index:
机构:
张福炎
.
计算机工程,
2002,
(09)
:48
-50+197
[8]
数据挖掘与OLAP理论与实务.[M].林杰斌等编著;.清华大学出版社.2003,
←
1
→
共 8 条
[1]
基于标记树的Web页面区域划分和搜索方法
[J].
论文数:
引用数:
h-index:
机构:
胡飞
.
计算机科学,
2005,
(08)
:182
-185
[2]
基于分块的网页信息解析器的研究与设计
[J].
论文数:
引用数:
h-index:
机构:
于满泉
;
陈铁睿
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所,中国科学院计算技术研究所,中国科学院计算技术研究所北京,中国科学院研究生院,北京,北京,中国科学院研究生院,北京,北京
陈铁睿
;
论文数:
引用数:
h-index:
机构:
许洪波
.
计算机应用,
2005,
(04)
:974
-976
[3]
基于DOM的网页主题信息自动提取
[J].
王琦
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学视觉与听觉信息处理国家重点实验室
王琦
;
论文数:
引用数:
h-index:
机构:
唐世渭
;
杨冬青
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学视觉与听觉信息处理国家重点实验室
杨冬青
;
王腾蛟
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学视觉与听觉信息处理国家重点实验室
王腾蛟
.
计算机研究与发展,
2004,
(10)
:1786
-1792
[4]
基于标记树表示方法的页面结构分析
[J].
常育红
论文数:
0
引用数:
0
h-index:
0
机构:
北京九州公司
常育红
;
姜哲
论文数:
0
引用数:
0
h-index:
0
机构:
北京九州公司
姜哲
;
朱小燕
论文数:
0
引用数:
0
h-index:
0
机构:
北京九州公司
朱小燕
;
不详
论文数:
0
引用数:
0
h-index:
0
机构:
北京九州公司
不详
.
计算机工程与应用 ,
2004,
(16)
:129
-132
[5]
网页版面中区域几何信息的确定
[J].
论文数:
引用数:
h-index:
机构:
朱精南
;
论文数:
引用数:
h-index:
机构:
赵明生
.
计算机工程,
2004,
(10)
:45
-48
[6]
Web页面信息块的自动分割
[J].
瞿有利
论文数:
0
引用数:
0
h-index:
0
机构:
富士通研究开发中心有限公司
瞿有利
;
于浩
论文数:
0
引用数:
0
h-index:
0
机构:
富士通研究开发中心有限公司
于浩
;
徐国伟
论文数:
0
引用数:
0
h-index:
0
机构:
富士通研究开发中心有限公司
徐国伟
;
西野文人
论文数:
0
引用数:
0
h-index:
0
机构:
富士通研究开发中心有限公司
西野文人
.
中文信息学报,
2004,
(01)
:6
-13
[7]
Web页面清洗技术的研究与实现
[J].
周源远
论文数:
0
引用数:
0
h-index:
0
机构:
南京大学软件新技术国家重点实验室,南京大学计算机科学与技术系,南京大学软件新技术国家重点实验室,南京大学计算机科学与技术系,南京大学软件新技术国家重点实验室,南京大学计算机科学与技术系,南京大学软件新技术国家重点实验室,南京大学计算机科学与技术系南京,南
周源远
;
论文数:
引用数:
h-index:
机构:
王继成
;
郑刚
论文数:
0
引用数:
0
h-index:
0
机构:
南京大学软件新技术国家重点实验室,南京大学计算机科学与技术系,南京大学软件新技术国家重点实验室,南京大学计算机科学与技术系,南京大学软件新技术国家重点实验室,南京大学计算机科学与技术系,南京大学软件新技术国家重点实验室,南京大学计算机科学与技术系南京,南
郑刚
;
论文数:
引用数:
h-index:
机构:
张福炎
.
计算机工程,
2002,
(09)
:48
-50+197
[8]
数据挖掘与OLAP理论与实务.[M].林杰斌等编著;.清华大学出版社.2003,
←
1
→