基于分类关键词词频模型的地缘政治主题爬虫设计

被引:4
作者
魏勇 [1 ,2 ]
胡丹露 [3 ]
郝晨光 [3 ]
欧小平 [3 ]
机构
[1] 信息工程大学地理空间信息学院
[2] 四川省应急测绘与防灾减灾工程技术研究中心
[3] 中华测绘技术服务公司
关键词
主题爬虫; 分类关键词词频模型; 词向量; 支持向量机; 相关度;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
针对词频-逆文档频率模型应用于主题爬虫时存在的非结构化问题,设计基于分类关键词词频(CKTF)模型的主题爬虫。利用网页文档结构特征和主题词语的分布信息将网页映射为五维向量,根据维基百科中文语料库和搜狗全网新闻数据语料库选择关键词并计算其与地缘政治主题的相关度,使用支持向量机实现网页向量的学习和分类。实验结果表明,与传统主题爬虫相比,该主题爬虫能够挖掘地缘政治主题中的丰富内容,有效衡量网页与主题的相关度,具有较高的爬准率和稳定性。
引用
收藏
页码:45 / 50
页数:6
相关论文
共 15 条
[1]   Ontology-based semantic similarity: A new feature-based approach [J].
Sanchez, David ;
Batet, Montserrat ;
Isern, David ;
Valls, Aida .
EXPERT SYSTEMS WITH APPLICATIONS, 2012, 39 (09) :7718-7728
[2]  
Topical web crawlers.[J].Filippo Menczer;Gautam Pant;Padmini Srinivasan.ACM Transactions on Internet Technology (TOIT).2004, 4
[3]  
Web mining research.[J].Raymond Kosala;Hendrik Blockeel.ACM SIGKDD Explorations Newsletter.2000, 1
[4]   基于《知网》的词语语义相似度改进算法研究 [J].
张沪寅 ;
刘道波 ;
温春艳 .
计算机工程, 2015, 41 (02) :151-156
[5]   基于树状语料库的中文短语相似度计算 [J].
费洪晓 ;
莫天池 ;
林青 ;
杨艳群 ;
谭叶清 ;
严星俊 .
计算机应用与软件, 2013, 30 (08) :18-20+42
[6]   基于大规模语料库的汉语词义相似度计算方法 [J].
石静 ;
吴云芳 ;
邱立坤 ;
吕学强 .
中文信息学报, 2013, (01) :1-6+80
[7]   基于本体的语义相似度和相关度计算研究综述 [J].
刘宏哲 ;
须德 .
计算机科学, 2012, 39 (02) :8-13
[8]   中文文本的地名解析方法研究 [J].
唐旭日 ;
陈小荷 ;
张雪英 .
武汉大学学报(信息科学版), 2010, 35 (08) :930-935+982
[9]   基于Nutch的专题网页资源采集服务系统的设计与实现 [J].
常智荣 ;
马自卫 ;
李高虎 .
现代图书情报技术, 2010, (03) :19-26
[10]   语义查询扩展中词语-概念相关度的计算 [J].
田萱 ;
杜小勇 ;
李海华 .
软件学报, 2008, (08) :2043-2053