基于丰富语言特征的中文社交媒体事件发掘

被引:0
作者
景悦诚
机构
[1] 上海交通大学
关键词
事件发掘; 自然语言处理; 语言特征; 条件随机场; 中文微博;
D O I
暂无
年度学位
2015
学位类型
硕士
导师
摘要
事件发掘就是从海量的、实时的、嘈杂的文本中发掘出有意义的事件,并将其中的事件要素概括抽取出来。事件发掘与其他自然语言处理领域的研究,如信息挖掘、主题检测、事件抽取等有着相似之处。与此同时社交媒体技术的快速发展给事件发掘带来了很好的信息来源。寻找一个有效的事件发掘方法也倍受人们的关注。本文给出了一套完整的事件发掘系统,实现从抓取微博,去除噪音,句子分割(分词,词性标注,命名实体识别,依存句法关系),人工标注,机器学习,事件发掘的完整流程。本文选取目前最流行的中文社交媒体——新浪微博作为文本来源。作为国内主流的社交媒体平台,在新浪微博上每天有数以亿计的微博发布。使用基于概率的条件随机场CRF模型,哈工大的语言云平台作为分词工具,PostgreSQL作为语料存储数据库,Django架构的网站作为人工标注以及事件发掘展示所用,python作为主要开发语言。通过实验,对各语言特征在事件发掘结果上的影响进行归纳分析,选取最优的模型进行事件发掘。结果表明,这套系统能够有效的发掘相关主题的事件,并且能够通过参数进行事件筛选,提高事件要素抽取的准确率。此外,只需为相关主题建立模型,对新抓取的微博进行模型预测,如果非相关主题,则不会发掘出任何事件元素,无需主题分类。
引用
收藏
页数:69
共 12 条
[1]
自由文本的信息抽取模式获取的研究 [D]. 
姜吉发 .
中国科学院研究生院(计算技术研究所),
2004
[2]
微博及中文微博信息处理研究综述 [J].
文坤梅 ;
徐帅 ;
李瑞轩 ;
辜希武 ;
李玉华 .
中文信息学报, 2012, (06) :27-37
[3]
EDM:高效的微博事件检测算法 [J].
童薇 ;
陈威 ;
孟小峰 .
计算机科学与探索, 2012, 6 (12) :1076-1086
[4]
基于特定领域的中文微博热点话题挖掘系统BTopicMiner [J].
李劲 ;
张华 ;
吴浩雄 ;
向军 .
计算机应用, 2012, 32 (08) :2346-2349
[5]
基于隐主题分析和文本聚类的微博客中新闻话题的发现 [J].
路荣 ;
项亮 ;
刘明荣 ;
杨青 .
模式识别与人工智能, 2012, 25 (03) :382-387
[6]
一种中文微博新闻话题检测的方法 [J].
郑斐然 ;
苗夺谦 ;
张志飞 ;
高灿 .
计算机科学, 2012, 39 (01) :138-141
[7]
基于MB-LDA模型的微博主题挖掘 [J].
张晨逸 ;
孙建伶 ;
丁轶群 .
计算机研究与发展, 2011, (10) :1795-1802
[8]
统计与规则并举的汉语词性自动标注算法 [J].
张民 ;
李生 ;
赵铁军 ;
张艳风 .
软件学报, 1998, (02)
[9]
Using Predicate-Argument Structures for Information Extraction..Mihai Surdeanu;Sanda Harabagiu;John Williams;et al;.Proceedings of ACL.2003,
[10]
The Stages of Event Extraction..David Ahn;.Proceedings of the Workshop on Annotations and Reasoning about Time and Events.2006,