基于用户查询日志的命名实体挖掘

被引:8
作者
翟海军 [1 ]
郭嘉丰 [2 ]
王小磊 [2 ]
许洪波 [2 ]
机构
[1] 中国科学技术大学计算机学院
[2] 中国科学院计算技术研究所
关键词
计算机应用; 中文信息处理; 分开命名实体; 用户查询日志; 话题模型;
D O I
暂无
中图分类号
TP391.4 [模式识别与装置];
学科分类号
0811 ; 081101 ; 081104 ; 1405 ;
摘要
针对大规模查询日志中丰富的命名实体的挖掘是数据挖掘领域中的重要研究课题。已有的研究工作提出了一种基于种子实体的抽取框架,利用实体间的分布相似度进行挖掘。然而该工作只有当种子实体仅属于单个语义类别时才能取得好的结果,实际上命名实体往往可能从属于多个类别。该文通过引入一个弱指导话题模型,利用少量的人工指导信息,很好地解决了实体的类别模糊性,提高了挖掘的有效性。实验表明该文提出的方法在实体挖掘性能上显著优于已有的方法。
引用
收藏
页码:71 / 76+116 +116
页数:7
相关论文
共 2 条
[1]   Unsupervised named entity recognition using syntactic and semantic contextual evidence [J].
Cucchiarelli, A ;
Velardi, P .
COMPUTATIONAL LINGUISTICS, 2001, 27 (01) :123-131
[2]  
Probabilistic Latent Semantic Indexing .2 T. Hofmann. SIGIR’’99: Proceedings ofthe22nd annual international ACM SIGIR conference on Research anddevelopment in information retrieval . 1999