一种基于无监督学习的词变体识别方法

被引:3
作者
王宝勋
王晓龙
刘秉权
李鹏
机构
[1] 哈尔滨工业大学计算机学院
基金
黑龙江省自然科学基金;
关键词
计算机应用; 中文信息处理; 词变体; 缩略词; 最小编辑距离; 系统相似模型;
D O I
暂无
中图分类号
H087 [数理语言学];
学科分类号
摘要
本文提出了一种生物医药领域词变体的识别策略。首先使用最小编辑距离算法和字符匹配算法从语料中分别获得特定目标词的形态学变体和缩略词,并将其作为候选词变体。本文采用系统相似模型获得每个词变体上下文语义的量化评价。本文的方法不需要任何语言学知识和精细加工的语料资源,实验表明,该方法可以在保证准确率的同时显著地提高词变体识别的召回率。
引用
收藏
页码:32 / 36+114 +114
页数:6
相关论文
共 7 条
  • [1] 一种基于局部共现的查询扩展方法
    丁国栋
    白硕
    王斌
    [J]. 中文信息学报, 2006, (03) : 84 - 91
  • [2] 一种基于上下文的中文信息检索查询扩展
    贺宏朝
    何丕廉
    高剑峰
    黄昌宁
    [J]. 中文信息学报, 2002, (06) : 32 - 37+45
  • [3] 一种新的基于统计的词典扩展方法
    周正宇
    李宗葛
    [J]. 中文信息学报, 2001, (05) : 46 - 51
  • [4] 一种基于词矢量的汉语语义量化模型
    陈清才
    王晓龙
    [J]. 计算机研究与发展, 2001, (02) : 207 - 212
  • [5] Rich features based Conditional Random Fields for biological named entities recognition
    Sun, Chengjie
    Guan, Yi
    Wang, Xiaolong
    Lin, Lei
    [J]. COMPUTERS IN BIOLOGY AND MEDICINE, 2007, 37 (09) : 1327 - 1333
  • [6] Using BLAST for identifying gene and protein names in journal articles[J] . Michael Krauthammer,Andrey Rzhetsky,Pavel Morozov,Carol Friedman.Gene . 2000 (1)
  • [7] A Term Recognition Ap-proach to Acronym Recognition .2 N.Okazaki,S.Ananiadou. Proceedings of the COLING/ACL2006 . 2006