中文微博命名体识别

被引:9
作者
韩春燕 [1 ]
刘玉娇 [2 ]
琚生根 [2 ]
李若晨 [2 ]
苏翀 [2 ]
机构
[1] 四川民族学院计算机科学系
[2] 四川大学计算机学院
关键词
微博; 条件随机场; 命名实体; 三级粒度特征; 短文本;
D O I
暂无
中图分类号
TP391.1 [文字信息处理]; TP393.092 [];
学科分类号
摘要
近年来微博的快速发展为命名体识别提供了新的载体,同时微博的特点也为命名体识别研究带来了挑战.针对微博特点,本文提出了基于拼音相似距离以及文本相似距离聚类算法对微博文本进行规范化,消除了微博的语言表达不规范造成的干扰.同时,本文还提出了篇章级、句子级以及词汇级三级粒度的特征提取,使用条件随机场模型进行训练数据,并识别命名体,采用由微博文本相似聚类获得的实体关系类对命名体类型进行修正.由于缺少大量的微博训练数据,本文采用半监督学习框架训练模型.通过对新浪微博数据的实验结果表明,本方法能够有效地提高微博中命名体识别的效果.
引用
收藏
页码:511 / 516
页数:6
相关论文
共 14 条
[1]   Two-stage NER for tweets with clustering [J].
Liu, Xiaohua ;
Zhou, Ming .
INFORMATION PROCESSING & MANAGEMENT, 2013, 49 (01) :264-273
[2]  
Online named entity recognition method for microtexts in social networking services: A case study of twitter[J] . Jason J. Jung. &nbspExpert Systems With Applications . 2012 (9)
[3]  
Unsupervised improvement of named entity extraction in short informal context using disambiguation clues. Habib M B,Keulen V M. Workshop on Semantic Web and Information Extraction SWAIE . 2012
[4]  
Sequence memoizer based model for Biomedical Named Entity Recognition. Sun Y,Sun C,Lin L,et al. 2012 9th International Conference on Fuzzy Systems and Knowledge Discovery FSKD . 2012
[5]  
Chinese Named Entity Recognition with Conditional Random Fields in the Light of Chinese Characteristics. Aaron L,Derek F. . 2013
[6]  
Chinese Named Entity Recognition with CRFs:Two Levels. Hongping Hu. Computational Intelligence and Security . 2008
[7]  
Design challenges and misconceptions in named entity recognition. Ratinov L,Roth D. Proceedings of the Thirteenth Conference on Computational Natural Language Learning . 2009
[8]  
Recognizing Named Entities in Tweets. Xiaohua Liu,Shaodian Zhang,Furu Wei,Ming Zhou. Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics . 2011
[9]   面向微博文本的命名实体识别 [J].
姜仁会 ;
王挺 ;
唐晋韬 .
计算机与数字工程, 2014, 42 (04) :647-651
[10]   中文微博实体链接研究 [J].
朱敏 ;
贾真 ;
左玲 ;
吴安峻 ;
陈方正 ;
柏玉 .
北京大学学报(自然科学版), 2014, 50 (01) :73-78