基于词频统计的个性化信息过滤技术

被引:43
作者
张国印
陈先
皮鹏
机构
[1] 哈尔滨工程大学计算机科学与技术学院,哈尔滨工程大学计算机科学与技术学院,哈尔滨工程大学计算机科学与技术学院黑龙江哈尔滨,黑龙江哈尔滨,黑龙江哈尔滨
关键词
搜索引擎; 文档过滤; 向量空间模型法; 词频统计; 个性词典;
D O I
暂无
中图分类号
TP391.3 [检索机];
学科分类号
080201 [机械制造及其自动化];
摘要
对Internet信息进行过滤,筛选出与用户兴趣最相符的文档,是智能搜索引擎要解决的一个重要问题.本文在介绍搜索引擎基本原理的基础上,提出了一种文档学习和用户个性词典构建的实现方法,其中包括内码转换、分词、摘词处理、用户个性词典的构建及词条权值调整等环节.然后提出了一种基于词频统计的个性化文档过滤算法,该算法对传统的向量空间模型法做了改进,使之能够更好地计算文档与用户个性词典之间的相关度,根据用户的兴趣爱好对文档进行相关度的过滤、排序,并给出了实验数据.实验结果表明该方法较好地解决了智能搜索引擎中Internet信息过滤、排序的问题.
引用
收藏
页码:63 / 67
页数:5
相关论文
empty
未找到相关数据