基于语义角色标注的微博人物关系抽取

被引:0
作者
廉营
机构
[1] 哈尔滨工业大学
关键词
人物关系抽取; 微博; 语义角色标注; 特征提取;
D O I
暂无
年度学位
2013
学位类型
硕士
导师
摘要
社交网络上的人物社会关系是分析人物网络行为的一类重要信息,如何高效准确地从社交网络上抽取人物关系信息,是本文研究的重点本文首先提出一种基于特征提取的人物关系分类的改进方法,然后再将这种方法应用到微博语料中,通过对新浪微博中两个用户之间的微博评论等含有二人关系的语料内容进行采集分析和过滤处理,然后进行语义角色标注和句法结构分析,提取人物关系特征,训练人物关系模版,进而实现人物关系分类本文的研究内容主要包括以下几个方面: 首先,本文使用基于语义角色标注的方法来提取人物关系特征通过对中文语句语义角色标注,将两个人名实体在语句中的位置和成分以及语句结构类型作为人物关系特征,并通过上述分析进行选取核心特征词,丰富了人物关系特征的种类 其次,本文实现对微博中的语料进行人物关系抽取本文使用新浪微博的API接口获取部分新浪微博语料,针对微博语料不规则不完整的特点,本文采用对微博语料进行规则填充的方法,使其符合标准的中文语句结构,再使用本文提出的改进方法对微博中的语料进行分析,抽取语料中的人物关系,对新浪微博中的人物的虚拟关系圈进行关系抽取 最后,本文使用Flex技术实现微博用户人物关系网的可视化分析本文使用Flex的开源可视化框架Birdeye来实现可视化模块,构建人物关系网络拓扑图,并对于微博用户的好友活跃度分析好友性别区域分布等信息使用直方图和饼状图的方式来实现 为了证实基于语义角色标注的特征提取方法的关系抽取效果,本文分别对新闻类语料和微博类语料进行实验,在新闻类语料的实验中选用ǎ人民日报ǐ语料中3000个含有两个人名实体的语句,微博类语料选用了3000个含有两个人名实体的微博语句,人工对这些人物关系进行标注,分别使用基于语义角色标注的特征提取方法和只选用上下文词集为特征提取方法进行对比实验在新闻类语料中本文提出的方法取得了的准确率和召回率分别81.17%和81.00%,选用上下文词集特征方法的准确率和召回率分别为72.32%和72.35%;微博类语料中本文提出的方法取得的准确率和召回率分别为71.65%和71.70%,后者的准确率和召回率分别为62.67%和62.60%通过实验表明无论是对于新闻类语料还是微博类语料,本文提出的基于语义角色标注的特征提取方法在人物关系抽取的问题上与选用上下文词集作为特征的方法相比都能够取得更优的结果
引用
收藏
页数:55
共 19 条
[1]
实体关系自动抽取技术的比较研究 [D]. 
宁海燕 .
哈尔滨工业大学,
2010
[3]
指代消解研究现状综述 [J].
黄毳丽 .
现代计算机(专业版), 2012, (09) :16-19
[4]
新浪微博数据挖掘方案 [J].
廉捷 ;
周欣 ;
曹伟 ;
刘云 .
清华大学学报(自然科学版), 2011, 51 (10) :1300-1305
[5]
基于特征组合的中文语义角色标注 [J].
李世奇 ;
赵铁军 ;
李晗静 ;
刘鹏远 ;
刘水 .
软件学报, 2011, 22 (02) :222-232
[6]
基于浅层句法分析的中文语义角色标注研究 [J].
王鑫 ;
孙薇薇 ;
穗志方 .
中文信息学报, 2011, 25 (01) :116-122
[7]
基于卷积树核的无指导中文实体关系抽取研究 [J].
黄晨 ;
钱龙华 ;
周国栋 ;
朱巧明 .
中文信息学报, 2010, (04) :11-17
[8]
事件信息抽取中语义角色标注研究 [J].
于江德 ;
樊孝忠 ;
庞文博 .
计算机科学, 2008, (03) :155-157
[9]
一种基于Web的大规模人物社会关系提取方法 [J].
姚从磊 ;
邸楠 .
模式识别与人工智能, 2007, 20 (06) :740-744
[10]
基于核函数中文关系自动抽取系统的实现 [J].
刘克彬 ;
李芳 ;
刘磊 ;
韩颖 .
计算机研究与发展, 2007, (08) :1406-1411