学术探索
学术期刊
学术作者
新闻热点
数据分析
智能评审
Web页面主题信息抽取研究与实现
被引:35
作者
:
刘艳敏
论文数:
0
引用数:
0
h-index:
0
机构:
燕山大学信息工程学院
燕山大学信息工程学院
刘艳敏
[
1
]
论文数:
引用数:
h-index:
机构:
刘飚
[
2
]
论文数:
引用数:
h-index:
机构:
封化民
[
3
]
论文数:
引用数:
h-index:
机构:
宋国森
[
1
]
论文数:
引用数:
h-index:
机构:
方勇
[
2
]
机构
:
[1]
燕山大学信息工程学院
[2]
北京邮电大学电信工程学院
[3]
北京电子科技学院信息安全与保密重点实验室
来源
:
计算机工程与应用
|
2006年
/ 21期
关键词
:
HTML;
信息提取;
页面结构分析;
标记统计;
D O I
:
暂无
中图分类号
:
TP391.1 [文字信息处理];
学科分类号
:
120506
[数字人文]
;
摘要
:
Web页面中的主要信息通常隐藏在大量无关的特征中,如无关紧要的图片和不相关的连接,使用户不能迅速获取主题信息,限制了Web的可用性。论文提出一种网页主题内容提取的方法及相应算法,并通过人工判定的方法对来自120个网站的5000个网页进行了测试和评估。实验结果表明该方法切实可行,可达到91.35%的准确率。
引用
收藏
页码:146 / 148
页数:3
相关论文
未找到相关数据
未找到相关数据