面向中文微博的产品名实体识别与规范化算法设计与实现

被引:0
作者
杨献祥
机构
[1] 北京理工大学
关键词
微博; 产品名实体识别; 层叠条件随机场; 词向量; 实体规范化;
D O I
暂无
年度学位
2015
学位类型
硕士
导师
摘要
随着互联网的发展,微博等社交网络平台逐渐兴起,用户不再仅仅是信息的浏览者,同时也成为信息的发布者,互联网已经从一个信息发布平台转变为互动交流的平台。新浪、腾讯等微博平台上海量的微博信息承载着巨大的商业价值。微博作为传播最快、用户量最大的社交媒体之一,成为重要的信息来源。互联网时代,网络营销、舆情监控和商业智能越来越受到企业的关注,从海量的微博信息中准确的识别出产品名实体是实现网络舆情监控和商业智能的基础和前提。目前从微博中识别产品名实体时仍然采用传统媒体文本中常用的处理方法,忽略了微博上下文信息缺乏、省略问题严重、表达不规范等问题,导致从微博中识别产品名实体的性能较差、实体歧义问题较严重。针对这些问题,本文主要研究针对微博文本的产品名实体识别方法,主要工作和创新点如下:1)提出了基于层叠条件随机场模型和产品知识库的产品名实体识别方法,该方法通过引入具有属性分类的产品实体知识库,提升了产品名实体识别的性能,实验结果表明该方法对复杂结构的实体识别准确率和召回率分别提高了0.6%和3.2%。2)提出一种融合全局上下文语义信息的基于词向量模型的特征选择方法,该方法针对微博文本上下文语义信息缺乏的不足,采用词向量和词聚类两种方法进行特征选择,词聚类方法可以降低对训练语料的要求,实验结果显示词向量和词聚类方法分别可以使产品名实体的整体识别性能F1值提高3.12%和3.34%。3)提出了基于全局以及局部上下文信息和用户交互关系的产品名实体规范化方法,实验结果表明该方法比基于知识库的方法F1值提升了6.92%。4)设计并实现了针对微博文本进行产品名实体识别和规范化的原型系统,该系统综合考虑了识别和规范化的准确率和召回率以及系统的时间和空间效率,实现了对微博文本的逐条处理和批量处理两种处理方式。
引用
收藏
页数:75
共 17 条
[1]
中文微博实体链接研究 [J].
朱敏 ;
贾真 ;
左玲 ;
吴安峻 ;
陈方正 ;
柏玉 .
北京大学学报(自然科学版), 2014, 50 (01) :73-78
[2]
基于多步聚类的汉语命名实体识别和歧义消解 [J].
李广一 ;
王厚峰 .
中文信息学报 , 2013, (05) :29-34+42
[3]
中文微博命名实体识别 [J].
邱泉清 ;
苗夺谦 ;
张志飞 .
计算机科学, 2013, 40 (06) :196-198
[4]
针对产品命名实体识别的半监督学习方法 [J].
黄诗琳 ;
郑小林 ;
陈德人 .
北京邮电大学学报, 2013, 36 (02) :20-23+54
[5]
基于条件随机场的英文产品命名实体识别 [J].
张朝胜 ;
郭剑毅 ;
线岩团 ;
余正涛 ;
雷春雅 ;
王海雄 .
计算机工程与科学, 2010, 32 (06) :115-117
[6]
面向网络文本的中文产品命名实体识别 [J].
梅丰 ;
孙承杰 ;
孙珂 ;
程明波 ;
林磊 .
郑州大学学报(理学版), 2010, 42 (01) :62-66
[7]
命名实体识别、排歧和跨语言关联 [J].
赵军 .
中文信息学报, 2009, 23 (02) :3-17
[8]
基于单字提示特征的中文命名实体识别快速算法 [J].
冯元勇 ;
孙乐 ;
李文波 ;
张大鲲 .
中文信息学报, 2008, (01) :104-110
[9]
面向商务信息抽取的产品命名实体识别研究 [J].
刘非凡 ;
赵军 ;
吕碧波 ;
徐波 ;
于浩 ;
夏迎炬 .
中文信息学报, 2006, (01) :7-13
[10]
中文机构名称的识别与分析 [J].
张小衡 ;
王玲玲 .
中文信息学报, 1997, (04)