基于图的同义词集自动获取方法

被引:13
作者
吴云芳 [1 ,2 ]
石静 [1 ,2 ]
金澎 [3 ]
机构
[1] 计算语言学教育部重点实验室(北京大学)
[2] 北京大学计算语言学研究所
[3] 乐山师范学院智能信息处理及应用实验室
关键词
相似词; 同义词集; 图模型; 并列结构; Newman算法; 边权值;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
同义词集是重要的语言基础知识,基于大规模语料库的同义词集自动获取是自然语言处理领域的一项基础性研究课题.从大规模语料中自动获取有并列结构关联的词语对,据此形成图,采用Newman算法对图进行划分而自动聚类相似词语.着重研究在Newman算法的基础上,充分挖掘和利用并列结构的特性和汉语的构词特点,采用6种方法对图中边的权值加以改进从而提升效果:分割语料、去除低频边、加重双向边、加重团、加重相同后字、惩罚音节不等.同义词集自动获取的准确率从初始的23.28%提升至53.12%,准确率提高了约30个百分点.
引用
收藏
页码:610 / 616
页数:7
相关论文
共 9 条
[1]  
Efficient unsupervised discovery ofword categories using symmetric patterns and frequencywords[C/OL]. Davidov D,Rappoport A. Proc of ACL . 2006
[2]  
Semantic class learning fromthe Web with hyponympatternlinkage graphs[C/OL]. Kozareva Z,Riloff E,Hovy E. Procof ACL . 2008
[3]  
Integrating pattern-based anddistributional si milarity methods for lexical entail mentacquisition[C/OL]. Mirkin S,Dagan I,Geffet M. Proc of COLI NG-ACL . 2006
[4]  
Using hidden Markov randomfieldsto combine distributional and pattern-based word clustering[C/OL]. Kaji N,Kitsuregawa M. Proc of COLI NG . 2008
[5]  
Towards terascaleknowledge acquisition[C/OL]. Pantel P,Ravichandran D,Hovy E. Proc of COLI NG . 2004
[6]  
Fast algorithm for detecting communitystructure in networks. Newman M. Physical Review .
[7]  
Graph-basedclustering using a Web search engine[C/OL]. Matsuo Y,Sakaki T,Uchiyama K,et al. Proc ofEMNLP . 2006
[8]  
Automatic retrieval and clustering of si milar words[C/OL]. Lin D. Proc of COLI NG-ACL . 1998
[9]  
A graph model for unsupervisedlexical acquisition[C/OL]. Widdows D,Dorow D. Proc of COLI NG . 2002