基于向量空间模型的网页文本表示改进算法

被引:10
作者
曾致远
张莉
机构
[1] 华中科技大学水电与数字化工程学院
关键词
网页; 文本表示; 向量空间模型; 特征项; 权值;
D O I
暂无
中图分类号
TP393.092 [];
学科分类号
080402 ;
摘要
介绍了一种新的文本表示算法,应用在网页文本过滤系统中。比起传统的向量空间模型,这种建立在其上的改进算法有更快的过滤速度和更高的过滤精度。该算法直接从过滤模板的特征集中取出词条,只在网页文本出现该词的地方进行精确处理。根据特征项所在的网页标签,赋予不同的权值系数,以准确定义特征词在文中的重要程度,最后建立该网页的文本表示模型。
引用
收藏
页码:134 / 135+139 +139
页数:3
相关论文
共 3 条
[1]  
A Multilevel Approach to Intelligent Information Filtering:Model,System,and Evaluation. Mostafa J,Mukhopadhyay S,Lam W,et al. ACM Transactions on Information Systems . 1997
[2]  
Information Retrieval on the Web. Kobayashi Mei,Takeda Koichi. ACM Computing Surveys . 2000
[3]  
Information Filtering and Information Retrieval,Two Wides of the Same Coin. Belkin N,Croft W B. Communications of the ACM . 1992