基于查询扩展的人名消歧

被引:7
作者
杨欣欣 [1 ,2 ]
李培峰 [1 ,2 ]
朱巧明 [1 ,2 ]
机构
[1] 苏州大学计算机科学与技术学院
[2] 江苏省计算机信息处理技术重点实验室
关键词
查询扩展; 搜索引擎; 人名消歧; 命名实体;
D O I
暂无
中图分类号
TP391.3 [检索机];
学科分类号
摘要
针对现有很多基于特征的人名消歧方法不适用于文档本身特征稀疏的问题,提出一种借助丰富的互联网资源,使用搜索引擎查询并扩展出更多与文档相关特征的方法。首先根据搜索引擎的特性构建了四类查询规则,然后通过这些查询规则进行搜索并返回前k个文档,最后对这些文档使用文档频率(DF)方法进行特征选择,并将选择的特征加入到原文档中。实验证明,该方法能显著提高人名消歧系统的性能,平均F值由76%增加到81%。
引用
收藏
页码:2488 / 2490+2507 +2507
页数:4
相关论文
共 13 条
[1]   无参数聚类边界检测算法的研究 [J].
邱保志 ;
许敏 .
计算机工程, 2011, 37 (15) :23-26
[2]  
A comparative study on feature selection in text categorization. Yiming Yang, Jan O Pedersen. Proceedings of the Fourteenth International Conference on Machine Learning (ICML’97) . 1997
[3]  
Unsupervised personal name disambigu-ation. MANN G,YAROWSKY D. CONLL03:Proceedings of the7th Conference on Nat-ural Language Learning at HLT-NAACL2003 . 2003
[4]  
Towards robust unsupervised personal name disambiguation. CHEN Y,MARTIN J. http://acl.ldc.upenn.edu/D/D07/D07-1020.pdf . 2010
[5]  
Exploiting Web querying for Web people search in WePS2. RABIA N,ZHAO C,DMITRI V K,et al. ht-tp://www.itr-rescue.org/pubs/upload/883Nuray-Turan2009.pdf . 2010
[6]  
PSNUS:Web peoplename disambiguation by simple clustering with rich features. ELMACIOGLU E,TAN Y F,YAN S,et al. http://acl.ldc.upenn.edu/W/W07/W07-2058.pdf . 2010
[7]  
Local feedback in full-text retrieval systems. Attar R, Fraenkel A S. Journal of the ACM . 1977
[8]   基于优化的文档频和Beam搜索的特征选择方法 [J].
朱颢东 ;
钟勇 .
计算机科学, 2009, 36 (11) :196-199
[9]   LOCAL FEEDBACK IN FULL-TEXT RETRIEVAL SYSTEMS [J].
ATTAR, R ;
FRAENKEL, AS .
JOURNAL OF THE ACM, 1977, 24 (03) :397-417
[10]  
The Chinese persons name disambig-uation evaluation:exploration of personal name disambiguation in Chinese news. CHEN Y,JIN P,LI W,et al. http://aclweb.org/an-thology-new/W/W10/W10-4152.pdf . 2010