基于维基百科的自动词义消歧方法

被引:12
作者
史天艺
李明禄
机构
[1] 上海交通大学计算机科学与工程系
关键词
词义消歧; 维基百科; 知识库; 无监督学习;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
针对传统词义消歧仅基于上下文语境而导致准确率低的问题,提出一种多策略的无监督自动词义消歧方法。利用从维基百科在线中提炼出的丰富语义知识,线性融合上下文语境、背景知识和语义信息3大特征,根据逻辑回归算法学习各特征的权重,选取最大融合值所对应的候选项作为最优词义。在SENSEVAL数据集上取得了85.50%的平均准确率,验证了该方法的有效性。
引用
收藏
页码:62 / 64+66 +66
页数:4
相关论文
共 5 条
[1]  
Unsupervised Word Sense Disambiguation Rivaling Supervised Methods. Yarowsky D. Proc.of the33rd Annual Meeting of the Association for Computational Linguistics . 1995
[2]  
Wikipedia:The Free Encyclopedia. Remy M. Online Information Review . 2002
[3]  
Improving word sense disambiguation in lexical chaining. Galley M,McKeown K. Proc.of the18th Int’l Joint Conf.on Artificial Intelligence(IJCAI2003) . 2003
[4]  
Inferring probability of relevance using the method of logistic regression. Gey F.C. AICA,SIGIR.Proceedings of the 17th annual international ACM SIGIR conference on Research and development in information retrieval . 1994
[5]  
The Wikipedia XML corpus. Denoyer,L,Gallinari,P. SIGIR Forum . 2006