网络竞争情报主题采集技术研究

被引:5
作者
田雪筠 [1 ,2 ]
机构
[1] 中国科学院国家科学图书馆
[2] 中国科学院大学
关键词
竞争情报; 主题爬虫; 链接过滤; 主题过滤;
D O I
暂无
中图分类号
G353.1 [情报资料的分析和研究]; G350 [情报学];
学科分类号
1205 ;
摘要
文章设计与实现了一种网络竞争情报的主题采集系统。该系统在进行主题预测时采用的基于改进的朴素贝叶斯算法提高了主题判断准确率,在进行链接预测时采用的基于规则与锚文本主题相似度结合的算法,避免了URL锚文本较短和噪声的问题。与宽度优先的采集技术相比,通过实验验证该方法具有明显的优越性。
引用
收藏
页码:132 / 137
页数:6
相关论文
共 12 条
[1]   基于Shark-Search和Hits算法的主题爬虫研究 [J].
罗林波 ;
陈绮 ;
吴清秀 .
计算机技术与发展, 2010, 20 (11) :76-79
[2]   基于SVM预测的金融主题爬虫 [J].
陈黎 ;
李志蜀 ;
琚生根 ;
唐小棚 ;
梁时木 ;
韩国辉 .
四川大学学报(自然科学版), 2010, 47 (03) :493-497
[3]   基于质心向量的增量式主题爬行 [J].
王辉 ;
左万利 ;
王晖昱 ;
宁爱军 ;
孙志伟 ;
满春雷 .
计算机研究与发展, 2009, 46 (02) :217-224
[4]   基于内容和链接分析的主题爬虫策略 [J].
刘朋 ;
林泓 ;
高德威 .
计算机与数字工程, 2009, 37 (01) :22-24+80
[5]   基于本体的竞争情报采集模型研究 [J].
吴金红 ;
张玉峰 ;
王翠波 .
情报理论与实践 , 2007, (05) :577-580+583
[6]   基于模式匹配抽取技术的网上产品情报获取 [J].
马静 ;
倪辉峰 .
情报理论与实践, 2007, (02) :228-231
[7]   基于Web文本挖掘的企业竞争情报获取方法研究 [J].
张玉峰 ;
朱莹 .
情报理论与实践, 2006, (05) :563-566
[8]   基于主题的智能Web信息采集系统的研究与实现 [J].
李卫 ;
刘建毅 ;
何华灿 ;
王枞 .
计算机应用研究, 2006, (02) :163-166
[9]  
面向特定领域的互联网舆情分析技术研究[D]. 张长利.吉林大学. 2011
[10]  
基于页面分块的网页内容提取的研究与实现[D]. 苗苗.武汉理工大学. 2010