农业知识推送模型及向量特征项提取算法研究

被引:0
作者
王娟
机构
[1] 湖南农业大学
关键词
推荐系统; 特征提取; TF-IDF; TF-IDF-IG; 改进算法;
D O I
暂无
年度学位
2011
学位类型
硕士
导师
摘要
在“十二五”期间,农业信息化已经明确成为我国社会发展和国民经济前进的重要任务。目前,信息技术在现代农业发展过程中的运用已经成为一种必然趋势,信息化服务成为许多发达国家农业科技推广与服务的主要方式之一。对于农业科技服务的主体—农民,如何在海量的信息中提取有价值或者农民感兴趣的信息成为农业信息化服务过程中文本信息研究处理的热点之一。 湖南省农村信息综合服务平台引入信息推送技术,建立农业信息推送模块,该模块采用基于内容的推荐技术,通过建立农民兴趣模型和文档特征模型,对农民进行个性化的农业信息推送服务。在传统的推荐模块基础上,本平台考虑了用户不同的兴趣需求,以及整个模块的自适应修正问题,使本平台的推荐模块更满足农民的使用需要。同时,分析了传统的特征提取方法的不足,考虑特征项在不同表空间的分布情况以及HTML文档结构对计算特征项权重影响,并对传统算法进行了改进,并使用支撑词语义均衡化来减小方言对于特征词权重引起的偏斜问题。 本文主要工作如下: (1)分析现有推荐技术的研究进展和各自的优缺点 (2)提出湖南省农村信息服务平台下农业信息推送整体架构 (3)在用户兴趣模型和文档特征模型中,分析现有特征提取方法TF-IDF和TF-IDF-IG,并得出其各自的不足。第一,TF-IDF算法只从特征项在文档和文档集合中的出现频率出发,没有考虑特征项在文档中的分布情况。另外,针对知识库中的文档数可能出现的在各产业类别中数据量极其不平衡问题,因此在进行特征项权重计算时应该设法消除这种数量级的差异。第二,TF-IDF-IG在一定程度上对TF-IDF的做了改进,但并不彻底,TF-IDF-IG只考虑了词语在整个文档集合中的分布情况,而没有考虑特征项在不同产业表空间的分布情况以及HTML文档结构对计算特征项权重影响。第三,由于本项目是基于农业数据的,农业数据与其他行业的数据相比,其有很强的地域性,因此还需要考虑方言对于特征项权重的影响,本文提出支撑词语义均衡化来解决这一问题。 (4)从不同产业表空间的分布情况、HTML文档结构方面改进传统特征提取算法,并且通过分类器将用户兴趣进行分类,从而降低了用户兴趣模型与文档特征模型进行相似度计算时的计算量。 (5)将改进的算法与TF-IDF、TF-IDF-IG算法在分类器上进行实验对比其Precision、Recall、F1值。首先,通过本项目组自主开发的农业spider程序在internet上爬取海量的农业信息作为测试数据。然后,随机选取用户数目N=25、50、100、200的4组用户作为模拟用户进行实验,并得出推送模型的Precision、Recall、F1值。实验说明改进算法是可行有效的,当用户呈倍数增长时,推送模型的Precision、Recall、F1值也在增长,说明本模型随着其计算量的增大,其精确度收敛,具有很好的扩展性。
引用
收藏
页数:63
共 24 条
[1]
基于神经网络和模糊逻辑的智能推荐系统研究 [D]. 
曹渝昆 .
重庆大学,
2006
[2]
文本分类中特征权重因子的作用研究 [J].
张爱华 ;
靖红芳 ;
王斌 ;
徐燕 .
中文信息学报, 2010, 24 (03) :97-104
[3]
集成项目类别与语境信息的协同过滤推荐算法 [J].
姚忠 ;
吴跃 ;
常娜 .
计算机集成制造系统, 2008, (07) :1449-1456
[4]
文本分类中基于方差的改进特征提取算法 [J].
吕佳 .
计算机工程与设计, 2007, (24) :6039-6041
[5]
Web文档中词语权重计算方法的改进 [J].
初建崇 ;
刘培玉 ;
王卫玲 .
计算机工程与应用 , 2007, (19) :192-194+198
[6]
协同过滤推荐系统中数据稀疏问题的解决 [J].
吴颜 ;
沈洁 ;
顾天竺 ;
陈晓红 ;
李慧 ;
张舒 .
计算机应用研究, 2007, (06) :94-97
[7]
一种改进的Item-based协同过滤推荐算法 [J].
彭玉 ;
程小平 ;
徐艺萍 .
西南大学学报(自然科学版), 2007, (05) :146-149
[8]
基于分布式数据的隐私保持协同过滤推荐研究 [J].
张锋 ;
常会友 .
计算机学报, 2006, (08) :1487-1495
[9]
使用BP神经网络缓解协同过滤推荐算法的稀疏性问题 [J].
张锋 ;
常会友 .
计算机研究与发展, 2006, (04) :667-672
[10]
自动文本分类中权值公式的改进 [J].
寇莎莎 ;
魏振军 .
计算机工程与设计, 2005, (06) :1616-1618