随着万维网(WWW)的迅猛发展,用户可在线获得的信息量呈指数级增长。面对如此浩瀚的信息,人们迫切需要寻找一条能够快速、准确获得所需信息的途径,因而出现了多种文本处理技术,包括信息检索、文本分类、文本摘要等。其中文本摘要技术因其既可以压缩文本,减少用户的浏览负担,又可以为其他文本处理技术提供支持,逐渐成为国内外研究的热点。
本文就文本摘要进行了较为系统的研究:首先全面系统地综述了自动文本摘要的相关问题和技术;然后根据网页自身的特点(如结构、链接等),提出了一种基于网页分割技术的文本摘要算法;其次鉴于自动摘要能够有效除去噪声、提取出文章的主题内容的特点,我们把自动摘要技术运用在网页分类上,实验证明这种方法能够使分类性能大大提高;在论文的最后,介绍了我们的网络挖掘系统-WEBME中的自动摘要子模块的设计与实现。