面向中文微博的产品名实体识别与规范化算法设计与实现

被引：0

作者：

杨献祥

机构：

[1] 北京理工大学

关键词：

微博; 产品名实体识别; 层叠条件随机场; 词向量; 实体规范化;

D O I：

暂无

年度学位：

2015

学位类型：

硕士

导师：

黄河燕;

摘要：

随着互联网的发展,微博等社交网络平台逐渐兴起,用户不再仅仅是信息的浏览者,同时也成为信息的发布者,互联网已经从一个信息发布平台转变为互动交流的平台。新浪、腾讯等微博平台上海量的微博信息承载着巨大的商业价值。微博作为传播最快、用户量最大的社交媒体之一,成为重要的信息来源。互联网时代,网络营销、舆情监控和商业智能越来越受到企业的关注,从海量的微博信息中准确的识别出产品名实体是实现网络舆情监控和商业智能的基础和前提。目前从微博中识别产品名实体时仍然采用传统媒体文本中常用的处理方法,忽略了微博上下文信息缺乏、省略问题严重、表达不规范等问题,导致从微博中识别产品名实体的性能较差、实体歧义问题较严重。针对这些问题,本文主要研究针对微博文本的产品名实体识别方法,主要工作和创新点如下:1)提出了基于层叠条件随机场模型和产品知识库的产品名实体识别方法,该方法通过引入具有属性分类的产品实体知识库,提升了产品名实体识别的性能,实验结果表明该方法对复杂结构的实体识别准确率和召回率分别提高了0.6%和3.2%。2)提出一种融合全局上下文语义信息的基于词向量模型的特征选择方法,该方法针对微博文本上下文语义信息缺乏的不足,采用词向量和词聚类两种方法进行特征选择,词聚类方法可以降低对训练语料的要求,实验结果显示词向量和词聚类方法分别可以使产品名实体的整体识别性能F1值提高3.12%和3.34%。3)提出了基于全局以及局部上下文信息和用户交互关系的产品名实体规范化方法,实验结果表明该方法比基于知识库的方法F1值提升了6.92%。4)设计并实现了针对微博文本进行产品名实体识别和规范化的原型系统,该系统综合考虑了识别和规范化的准确率和召回率以及系统的时间和空间效率,实现了对微博文本的逐条处理和批量处理两种处理方式。

引用

页数：75

共 17 条

[1]

中文微博实体链接研究 [J].