面向敏感网页识别的网页内容获取方案的设计与实现

被引:3
作者
陈欣
卓力
机构
[1] 北京工业大学信号与信息处理研究室
关键词
MFC; HTML; 文本获取; 图像获取;
D O I
10.19708/j.ckjs.2009.05.006
中图分类号
TP393.092 [];
学科分类号
080402 ;
摘要
面向敏感网页识别,设计并实现了一种网页内容获取方案。该方案主要包括HTML(Hypertext Markup Language)源文件的获取、文本获取、图像获取及穿插其中的HTML源文件解析等4部分内容。测试结果表明,无论是中文网页还是英文网页,本设计方案均能获得网页上的文本和图像内容信息,所获取的内容可以满足后续敏感网页识别的应用需求。
引用
收藏
页码:24 / 27
页数:4
相关论文
共 4 条
[1]   基于支持向量机与无监督聚类相结合的中文网页分类器 [J].
李晓黎 ;
刘继敏 ;
史忠植 .
计算机学报, 2001, (01) :62-68
[2]  
并行网页抓取系统设计[D]. 张晓峰.北京交通大学. 2007
[3]  
网页内容过滤的关键技术研究及实现[D]. 白广奇.山东大学. 2005
[4]  
Windows 网络编程技术[M]. 机械工业出版社 , (美)琼斯(AnthonyJones), 2000