基于百科资源的多策略中文同义词自动抽取研究

被引:27
作者
陆勇 [1 ]
章成志 [2 ,3 ]
侯汉清 [4 ]
机构
[1] 南京信息工程大学
[2] 南京理工大学信息管理系
[3] 中国科学技术信息研究所在站
[4] 南京农业大学信息管理系
基金
中国博士后科学基金;
关键词
信息抽取; 中文同义词; 同义词抽取; 百科语料库;
D O I
10.13530/j.cnki.jlis.2010.01.003
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
采用实证的方法,以百度百科语料库为实验抽取对象,在对同义词自动抽取技术分析比较的基础上,提出了多策略的中文同义词抽取的思路。综合利用字面相似度方法、特征模式匹配方法和PageRank链接分析方法对中文百科语料库中的同义词进行自动获取,具有多领域适用性、获取同义词类型多样性等特点。实验结果表明,该方法具有可行性,并可应用于其它语种的同义词自动获取中。未来的研究应进一步实现模式的自动定义、完善抽词词典、有效排除噪音数据并构建能真实反映语义关系的词汇矩阵。
引用
收藏
页码:56 / 62
页数:7
相关论文
共 7 条
[1]   基于PageRank算法的汉语同义词自动识别 [J].
陆勇 ;
侯汉清 .
西华大学学报(自然科学版), 2008, (02) :13-15+94+1
[2]   基于监督学习的同义关系自动抽取方法 [J].
孙霞 ;
董乐红 .
西北大学学报(自然科学版), 2008, (01) :35-39
[3]  
基于多层特征的字符串相似度计算模型.[J].章成志;.情报学报.2005, 06
[4]  
基于模式匹配的汉语同义词自动识别.[J].陆勇;侯汉清;.情报学报.2006, 06
[5]  
面向信息检索的汉语同义词自动识别.[D].陆勇.南京农业大学.2005, 06
[6]  
现代汉语的语词定义研究.[D].沈桂丽.广西师范大学.2004, 01
[7]  
科技文献中术语定义的语言模式研究.[D].贾爱平.北京语言文化大学.2002, 02