维基百科的中文语义相关词获取及相关度分析计算

被引:15
作者
李赟 [1 ,2 ]
黄开妍 [2 ]
任福继 [1 ,2 ]
钟义信 [1 ]
机构
[1] 北京邮电大学计算机学院
[2] 德岛大学先端技术科学教育部
关键词
维基百科; 语义关系; 语义相关度;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
为了研究在线百科全书维基百科在语义相关词抽取、语义相关度计算等方面的应用,从中文维基百科下载并整理了5万余篇解释页面文档,抽取了反映语义关系的站内超级链接网络,通过挖掘文档间相互引用的链接关系抽取了近40万对语义相关词,并研究了语义相关词之间的主题聚类特性,选择两两相关的多个词得到相关词集合并计算了平均语义相关度.相关度计算综合利用了链接在文档中的位置、频率等信息,通过对比经典算法在同一测试集上的计算结果对算法进行了分析评估,证明了维基百科语义相关词抽取方法的有效性.
引用
收藏
页码:109 / 112
页数:4
相关论文
共 7 条
[1]  
Combining local context andwordnet si milarity for word sense identification. Leacock C,Chodorow M. Wordnet:An Electronic Lexical Database . 1998
[2]  
Automatic sense disambiguation using machinereadable dictionaries:howto tell a pine cone froman icecreamcone. Lesk M. Proceedings of the 5th Annual Confer-ence on Systems Documentation . 1986
[3]  
Extended gloss overlap as ameasure of semantic relatedness. Banerjee S,Pedersen T. Proceedings of theEighteenth International Joint Conference on ArtificialIntelligence . 2003
[4]  
Exploitsemantic information for category annotation recommen-dationin Wikipedia. Wang Yang,Wang Haofen,Zhu Haiping,et al. Natural Language Processingand Information Systems . 2007
[5]  
Analysis of the Wikipedia categorygraphfor NLP applications. Zesch T,Gurevych I. Proceedings of the TextGraphs-2 Workshop(NAACL-HLT 2007) . 2007
[6]  
Deriving alarge scale taxonomyfrom Wikipedia. Ponzetto S P,Strube M. Proceedings of the 22nd NationalConference on Artificial Intelligence . 2007
[7]  
Wikipedia:the free encyclopedia.onlineinfor-mation review. Remy M. . 1999