中文微博实体链接研究

被引:13
作者
朱敏
贾真
左玲
吴安峻
陈方正
柏玉
机构
[1] 西南交通大学信息科学技术学院
关键词
微博实体链接; 改进的拼音编辑距离; 后缀词表匹配法; 实体消歧;
D O I
10.13209/j.0479-8023.2014.014
中图分类号
TP391.1 [文字信息处理]; TP393.092 [];
学科分类号
081203 ; 0835 ; 080402 ;
摘要
针对2013年CCF自然语言处理与中文计算会议(NLP&CC2013)中文微博实体链接的任务,使用CCF提供的新浪微博数据作为训练和测试数据,利用西南交通大学耶宝智慧中文分词平台作为自然语言预处理工具,提出一种实体链接的方法。该方法应用改进的拼音编辑距离算法和后缀词表匹配法,提出实体聚类消歧与基于百度百科词频的同类实体消歧相结合的消歧方法。在2013年CCF中文微博实体链接评测任务中正确结果的准确率为0.8838,在10个参赛队伍中名列第3位。表明该方法有效并可以适应文本中的噪声。
引用
收藏
页码:73 / 78
页数:6
相关论文
共 9 条
[1]   基于网页文本依存特征的人名消歧 [J].
杨欣欣 ;
李培峰 ;
朱巧明 .
计算机工程, 2012, 38 (19) :133-136
[2]   开放式文本信息抽取 [J].
赵军 ;
刘康 ;
周光有 ;
蔡黎 .
中文信息学报, 2011, 25 (06) :98-110
[3]   一种基于概念关联式的词义消岐方法 [J].
缪建明 ;
张全 .
计算机科学, 2010, 37 (01) :208-210
[4]   基于拼音索引的中文模糊匹配算法 [J].
曹犟 ;
邬晓钧 ;
夏云庆 ;
郑方 .
清华大学学报(自然科学版), 2009, 49 (S1) :1328-1332
[5]   命名实体识别、排歧和跨语言关联 [J].
赵军 .
中文信息学报, 2009, (02) :3-17
[6]   基于多层条件随机场的中文命名实体识别 [J].
胡文博 ;
都云程 ;
吕学强 ;
施水才 .
计算机工程与应用 , 2009, (01) :163-165+227
[7]  
Large-scale named entity disambiguation based on Wikipedia data .2 Cucerzan S. Proceedings of the Emprrical Methods in Natural Language Processing . 2007
[8]  
A Generative Entity-Mention Model for Linking Entitieswith Knowledge Base .2 Han X,Sun L. Proceedings of the49th Annual Meeting of theAssociation for Computational Linguistics . 2011
[9]  
DAMSEL:TheDSTO/Macquarie System for Entity-Linking .2 Matthew Honnibal,Robert Dale. Proceeding of TAC . 2009