基于权值优化的网页正文内容提取算法

被引:9
作者
吴麒 [1 ,2 ]
陈兴蜀 [1 ]
谭骏 [1 ]
机构
[1] 四川大学计算机学院∥网络与可信计算研究所
[2] 中国电子科技集团公司第二十九研究所信息综合控制国家重点实验室
关键词
权值优化; 正文内容提取; 特征属性; 统计特征; 准确率; 召回率;
D O I
暂无
中图分类号
TP393.092 [];
学科分类号
摘要
目前网页上出现越来越多的广告信息,使得准确抽取网页正文信息变得越来越难.针对这一问题,文中提出了一种基于权值优化的网页正文内容提取算法.该算法首先通过分析网页正文内容的特点,确定主题块的特征属性,得出这些属性的统计特征;然后,利用各个特征属性具有不同重要性的特点,使用粒子群优化算法对特征权值及阈值进行了优化和确定,使其性能得到进一步的提升;最后通过实验对该方法进行验证.结果表明,与未经权值优化的提取算法相比,在基本维持相同精确率的基础上,该方法可使网页正文内容提取的召回率提升至95.8%.
引用
收藏
页码:32 / 37
页数:6
相关论文
共 3 条
[1]   模板化网页主题信息的提取方法 [J].
欧健文 ;
董守斌 ;
蔡斌 .
清华大学学报(自然科学版), 2005, (S1) :1743-1747
[2]   基于可视布局信息的网页噪音去除算法 [J].
荆涛 ;
左万利 .
华南理工大学学报(自然科学版), 2004, (S1) :84-87
[3]  
Discovering Informative Content Blocks from Web Documents .2 Shian-Hua Lin,Jan-Ming Ho. Proceedings of the ACM SIGKDD Int Conf on Knowledge Discovery & Data Mining (SIGKDD‘02) . 2002