自动提取含字母词语的领域新术语的研究

被引:3
作者
姜韶华
党延忠
机构
[1] 大连理工大学系统工程研究所
关键词
专指语义串; 长串优先; 字母词语; 中文信息处理;
D O I
暂无
中图分类号
TP18 [人工智能理论];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ;
摘要
新术语的提取是中文信息处理领域的一个重要研究课题。针对现有提取方法的不足和很多专业术语表现为字母词语的特点,该文提出了一种综合统计技术和规则筛选的方法:基于长串优先和串频统计的思路进行文本切分,得到共现字符串,利用词语搭配规则进行过滤,经过领域词典及评价函数的筛选,提取出领域新术语。该方法可发现包含字母词语、专业术语等未登录词在内的频率大于等于2的任意长度的专指语义串、短语和词。实验表明了该方法的有效性及新术语的准确率分布特征。
引用
收藏
页码:47 / 49
页数:3
相关论文
共 4 条
  • [1] 一种基于生语料的领域词典生成方法
    孙霞
    郑庆华
    王朝静
    张素娟
    [J]. 小型微型计算机系统, 2005, (06) : 1088 - 1092
  • [2] 基于语料库的字母词语自动提取研究
    郑泽之
    张普
    杨建国
    [J]. 中文信息学报, 2005, (02) : 78 - 85
  • [3] 面向Internet的中文新词语检测
    邹纲
    刘洋
    刘群
    孟遥
    于浩
    西野文人
    亢世勇
    [J]. 中文信息学报, 2004, (06) : 1 - 9
  • [4] 一种多知识源汉语语言模型的研究与实现
    刘秉权
    王晓龙
    王宇颖
    [J]. 计算机研究与发展, 2002, (02) : 231 - 235