基于分类关键词词频模型的地缘政治主题爬虫设计

被引:4
作者
魏勇 [1 ,2 ]
胡丹露 [3 ]
郝晨光 [3 ]
欧小平 [3 ]
机构
[1] 信息工程大学地理空间信息学院
[2] 四川省应急测绘与防灾减灾工程技术研究中心
[3] 中华测绘技术服务公司
关键词
主题爬虫; 分类关键词词频模型; 词向量; 支持向量机; 相关度;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
针对词频-逆文档频率模型应用于主题爬虫时存在的非结构化问题,设计基于分类关键词词频(CKTF)模型的主题爬虫。利用网页文档结构特征和主题词语的分布信息将网页映射为五维向量,根据维基百科中文语料库和搜狗全网新闻数据语料库选择关键词并计算其与地缘政治主题的相关度,使用支持向量机实现网页向量的学习和分类。实验结果表明,与传统主题爬虫相比,该主题爬虫能够挖掘地缘政治主题中的丰富内容,有效衡量网页与主题的相关度,具有较高的爬准率和稳定性。
引用
收藏
页码:45 / 50
页数:6
相关论文
共 15 条
[11]   基于HowNet的词汇语义倾向计算 [J].
朱嫣岚 ;
闵锦 ;
周雅倩 ;
黄萱菁 ;
吴立德 .
中文信息学报, 2006, (01) :14-20
[12]  
主题搜索引擎中的爬取技术研究.[D].姜琨.国防科学技术大学.2011, 07
[13]  
基于Nutch技术的辛亥革命本体搜索引擎的设计与实现.[D].贺鹏程.华中师范大学.2011, 11
[14]  
基于Nutch技术的主题搜索引擎实现.[D].李东海.吉林大学.2008, 10
[15]  
支持向量机的理论与算法研究.[D].王国胜.北京邮电大学.2008, 10