学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
模板化网页主题信息的提取方法
被引:76
作者
:
欧健文
论文数:
0
引用数:
0
h-index:
0
机构:
华南理工大学广东省计算机网络重点实验室
欧健文
董守斌
论文数:
0
引用数:
0
h-index:
0
机构:
华南理工大学广东省计算机网络重点实验室
董守斌
蔡斌
论文数:
0
引用数:
0
h-index:
0
机构:
华南理工大学广东省计算机网络重点实验室
蔡斌
机构
:
[1]
华南理工大学广东省计算机网络重点实验室
[2]
华南理工大学广东省计算机网络重点实验室 广州510640
来源
:
清华大学学报(自然科学版)
|
2005年
/ S1期
关键词
:
万维网;
网页;
信息提取;
模板;
搜索引擎;
D O I
:
10.16511/j.cnki.qhdxxb.2005.s1.004
中图分类号
:
TP391.1 [文字信息处理];
学科分类号
:
081203 ;
0835 ;
摘要
:
为了消除网页噪音,有效地提取基于模板的网页主题信息,提出了一种新的信息提取方法。该方法采用机器自动学习方式生成网页集的模板;以网页链接关系中的锚点文本作为提取目标对模板进行标记,生成对应模板的提取规则;依据模板的提取规则对网页主题信息进行提取。对国内2 588个新闻网页进行了检测。实验结果表明,该方法可以快速、有效地提取模板生成的网页集主题信息,准确率达99.5%。将该方法应用于搜索引擎系统(木棉检索)中,与原来的检索系统相比较,索引文件的大小减少约50%,检索的速度和精确度也得到提高。
引用
收藏
页码:1743 / 1747
页数:5
相关论文
共 4 条
[1]
基于可视布局信息的网页噪音去除算法
[J].
荆涛
论文数:
0
引用数:
0
h-index:
0
机构:
吉林大学计算机科学与技术学院 吉林 长春 130012
荆涛
;
左万利
论文数:
0
引用数:
0
h-index:
0
机构:
吉林大学计算机科学与技术学院 吉林 长春 130012
左万利
.
华南理工大学学报(自然科学版),
2004,
(S1)
:84
-87
[2]
基于标记树表示方法的页面结构分析
[J].
常育红
论文数:
0
引用数:
0
h-index:
0
机构:
北京九州公司
常育红
;
姜哲
论文数:
0
引用数:
0
h-index:
0
机构:
北京九州公司
姜哲
;
朱小燕
论文数:
0
引用数:
0
h-index:
0
机构:
北京九州公司
朱小燕
;
不详
论文数:
0
引用数:
0
h-index:
0
机构:
北京九州公司
不详
.
计算机工程与应用 ,
2004,
(16)
:129
-132
[3]
基于DOM的Web信息提取
[J].
论文数:
引用数:
h-index:
机构:
李效东
;
论文数:
引用数:
h-index:
机构:
顾毓清
.
计算机学报,
2002,
(05)
:526
-533
[4]
一种HTML网页净化方法[J]. 张志刚,陈静,李晓明.情报学报. 2004 (04)
←
1
→
共 4 条
[1]
基于可视布局信息的网页噪音去除算法
[J].
荆涛
论文数:
0
引用数:
0
h-index:
0
机构:
吉林大学计算机科学与技术学院 吉林 长春 130012
荆涛
;
左万利
论文数:
0
引用数:
0
h-index:
0
机构:
吉林大学计算机科学与技术学院 吉林 长春 130012
左万利
.
华南理工大学学报(自然科学版),
2004,
(S1)
:84
-87
[2]
基于标记树表示方法的页面结构分析
[J].
常育红
论文数:
0
引用数:
0
h-index:
0
机构:
北京九州公司
常育红
;
姜哲
论文数:
0
引用数:
0
h-index:
0
机构:
北京九州公司
姜哲
;
朱小燕
论文数:
0
引用数:
0
h-index:
0
机构:
北京九州公司
朱小燕
;
不详
论文数:
0
引用数:
0
h-index:
0
机构:
北京九州公司
不详
.
计算机工程与应用 ,
2004,
(16)
:129
-132
[3]
基于DOM的Web信息提取
[J].
论文数:
引用数:
h-index:
机构:
李效东
;
论文数:
引用数:
h-index:
机构:
顾毓清
.
计算机学报,
2002,
(05)
:526
-533
[4]
一种HTML网页净化方法[J]. 张志刚,陈静,李晓明.情报学报. 2004 (04)
←
1
→