Web页面主题信息抽取研究与实现

被引:35
作者
刘艳敏 [1 ]
刘飚 [2 ]
封化民 [3 ]
宋国森 [1 ]
方勇 [2 ]
机构
[1] 燕山大学信息工程学院
[2] 北京邮电大学电信工程学院
[3] 北京电子科技学院信息安全与保密重点实验室
关键词
HTML; 信息提取; 页面结构分析; 标记统计;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
Web页面中的主要信息通常隐藏在大量无关的特征中,如无关紧要的图片和不相关的连接,使用户不能迅速获取主题信息,限制了Web的可用性。论文提出一种网页主题内容提取的方法及相应算法,并通过人工判定的方法对来自120个网站的5000个网页进行了测试和评估。实验结果表明该方法切实可行,可达到91.35%的准确率。
引用
收藏
页码:146 / 148
页数:3
相关论文
empty
未找到相关数据