微博中蕴含台风灾害损失信息识别和分类方法

被引:27
作者
杨腾飞 [1 ,2 ]
解吉波 [1 ]
李振宇 [3 ]
李国庆 [1 ]
机构
[1] 中国科学院遥感与数字地球研究所
[2] 中国科学院大学
[3] 山东科技大学
关键词
社交媒体; 台风灾害; 短文本分类; 灾损信息识别; 灾情评估;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
社交媒体在灾害信息的实时发布与传播中发挥着越来越重要的作用。在灾害发生过程中,社交媒体中蕴含的实时灾损信息对灾情及时响应和评估有重要意义。然而,这些涉灾文本具有信息破碎度高、文本特征稀疏、标注语料库匮乏等缺点,使得传统的基于监督学习的方法难以有效提取其中的灾损信息。为此,本文提出了一种通过扩展上下文特征和匹配特征词的方法来快速识别和分类社交媒体中蕴含的不同类别的灾损信息。本方法首先基于中文语法规则,抽取小规模不同灾损类别下微博文本中的涉灾关键词构建特征词搭配对。然后,利用词向量模型和已有词库对这些特征词搭配对进行补充和扩展。同时,根据中文词语共现规则,引入外部语料库优化特征词间的语义搭配关系。最终,以此为基础构建台风灾损分类知识库对灾情文本中蕴含的不同类别灾损信息进行识别和分类。本文以2016年9月15日台风"莫兰蒂"登陆事件作为研究案例,以评估本文方法在灾损信息识别和分类上的效果。结果表明,本文方法对微博文本中蕴含的不同类别风灾损失信息的识别和分类效果显著(各类别综合评价指标都达到了0.74以上)。基于灾损信息分类结果,本文绘制了台风影响的时空分布图,从而进一步说明本文方法在灾害损失评估和减灾救灾方面的效用。
引用
收藏
页码:906 / 917
页数:12
相关论文
共 24 条
  • [11] Making the most of a brave new world: Opportunities and considerations for using Twitter as a public health monitoring tool[J] . Mark A. Stoové,Alisa E. Pedrana.Preventive Medicine . 2014
  • [12] Public behavior response analysis in disaster events utilizing visual analytics of microblog data[J] . Junghoon Chae,Dennis Thom,Yun Jang,SungYe Kim,Thomas Ertl,David S. Ebert.Computers & Graphics . 2014
  • [13] Twitter mining for fine-grained syndromic surveillance[J] . Paola Velardi,Giovanni Stilo,Alberto E. Tozzi,Francesco Gesualdo.Artificial Intelligence In Medicine . 2014
  • [14] An Improved Random Forest Classifier for Text Categorization
    Xu, Baoxun
    Guo, Xiufeng
    Ye, Yunming
    Cheng, Jiefeng
    [J]. JOURNAL OF COMPUTERS, 2012, 7 (12) : 2913 - 2920
  • [15] An improved K -nearest-neighbor algorithm for text categorization[J] . Shengyi Jiang,Guansong Pang,Meiling Wu,Limin Kuang.Expert Systems With Applications . 2011 (1)
  • [16] A comparison study on multiple binary-class SVM methods for unilabel text categorization
    Kumar, M. Arun
    Gopal, M.
    [J]. PATTERN RECOGNITION LETTERS, 2010, 31 (11) : 1437 - 1444
  • [17] Drug design by machine learning: support vector machines for pharmaceutical data analysis[J] . R. Burbidge,M. Trotter,B. Buxton,S. Holden.Computers and Chemistry . 2001 (1)
  • [18] 《同义词词林》在中文实体关系抽取中的作用
    刘丹丹
    彭成
    钱龙华
    周国栋
    [J]. 中文信息学报, 2014, 28 (02) : 91 - 99
  • [19] 基于LDA高频词扩展的中文短文本分类
    胡勇军
    江嘉欣
    常会友
    [J]. 现代图书情报技术, 2013, (06) : 42 - 48
  • [20] 微博文本处理研究综述
    张剑峰
    夏云庆
    姚建民
    [J]. 中文信息学报, 2012, (04) : 21 - 27+42