共 14 条
基于改进TF-PDF算法的地震微博热门主题词提取研究
被引:7
作者:
苏晓慧
[1
]
张晓东
[2
]
胡春蕾
[2
]
邹再超
[2
]
邱晓康
[1
]
机构:
[1] 不详
[2] 北京林业大学信息学院
[3] 不详
[4] 中国农业大学信息与电气工程学院
[5] 不详
来源:
基金:
国家重点研发计划;
关键词:
地震热门主题词;
信息提取;
微博抓取;
微博影响力;
TF-PDF;
D O I:
暂无
中图分类号:
P315.9 [工程地震];
TP391.1 [文字信息处理];
学科分类号:
摘要:
随着网络通讯技术的发展和社交媒体工具的普及,越来越多的公众在微博平台发布、传播地震相关信息,而如何从这些信息中获取有用信息并为开展地震应急工作提供方向性的指导,成为研究的重点及难点。该文提出一种改进的TF-PDF算法,通过发布微博的博主影响力以及微博的关注度确定地震主题特征项的权重。首先利用ICTCLAS分词系统对地震微博信息进行分词,然后在微博分词后的词库中依据权重对候选主题词进行排序,从而获得地震信息的热门主题词,并以芦山地震和云南彝良地震的微博信息为例,对传统TF-PDF算法和改进后的TFPDF算法进行了对比。结果表明,利用传统TF-PDF方法发现的地震热门主题词多为位置信息,而改进后的方法可以更有效地发现公众在震时的感受,可为灾害救援提供及时的信息与支持。
引用
收藏
页码:90 / 95
页数:6
相关论文