面向短文本的命名实体识别

被引:17
作者
王丹
樊兴华
机构
[1] 重庆邮电大学计算机科学与技术研究所
关键词
短文本; 隐马尔可夫模型; 命名实体识别; 拼音同指关系库; 词性;
D O I
暂无
中图分类号
TP391.43 [];
学科分类号
0811 ; 081101 ; 081104 ; 1405 ;
摘要
针对短文本命名实体识别这项紧缺任务,提出了一种面向短文本的快速有效的命名实体识别方法。该方法主要分成三步:第一步,针对短文本表达不规范特性对命名实体识别的干扰,采取去干扰字符,化繁为简等规范化操作。第二步,针对短文本语意不完整特性,提出用HMM(隐马尔可夫模型)以词性做观察值进行初步命名实体识别。第三步,据初步识别结果,构建拼音同指关系库来识别潜在实体。在由8464篇短文本构成的测试集上运行的实验表明,该方法能较好地进行短文本命名实体识别。
引用
收藏
页码:143 / 145+171 +171
页数:4
相关论文
共 4 条
[1]   基于两步策略的中文短文本分类研究 [J].
樊兴华 ;
王鹏 .
大连海事大学学报, 2008, (03) :121-124
[2]   面向变异短文本的快速聚类算法 [J].
黄永光 ;
刘挺 ;
车万翔 ;
胡晓光 .
中文信息学报, 2007, (02) :63-68
[3]   短文本数据的自动分类 [J].
宋东风 ;
张志浩 .
电脑与信息技术, 2007, (01) :36-38+57
[4]   基于混合统计模型的汉语命名实体识别方法 [J].
张晓艳 ;
王挺 ;
陈火旺 .
计算机工程与科学, 2006, (06) :135-139