面向敏感网页识别的网页内容获取方案的设计与实现

被引：3

作者：

陈欣

卓力

机构：

[1] 北京工业大学信号与信息处理研究室

来源：

测控技术 | 2009年 / 28卷 / 05期

关键词：

MFC; HTML; 文本获取; 图像获取;

D O I：

10.19708/j.ckjs.2009.05.006

中图分类号：

TP393.092 [];

学科分类号：

080402 ;

摘要：

面向敏感网页识别,设计并实现了一种网页内容获取方案。该方案主要包括HTML(Hypertext Markup Language)源文件的获取、文本获取、图像获取及穿插其中的HTML源文件解析等4部分内容。测试结果表明,无论是中文网页还是英文网页,本设计方案均能获得网页上的文本和图像内容信息,所获取的内容可以满足后续敏感网页识别的应用需求。

引用

页码：24 / 27

页数：4