共 4 条
自动提取含字母词语的领域新术语的研究
被引:3
作者:
姜韶华
党延忠
机构:
[1] 大连理工大学系统工程研究所
来源:
关键词:
专指语义串;
长串优先;
字母词语;
中文信息处理;
D O I:
暂无
中图分类号:
TP18 [人工智能理论];
学科分类号:
081104 ;
0812 ;
0835 ;
1405 ;
摘要:
新术语的提取是中文信息处理领域的一个重要研究课题。针对现有提取方法的不足和很多专业术语表现为字母词语的特点,该文提出了一种综合统计技术和规则筛选的方法:基于长串优先和串频统计的思路进行文本切分,得到共现字符串,利用词语搭配规则进行过滤,经过领域词典及评价函数的筛选,提取出领域新术语。该方法可发现包含字母词语、专业术语等未登录词在内的频率大于等于2的任意长度的专指语义串、短语和词。实验表明了该方法的有效性及新术语的准确率分布特征。
引用
收藏
页码:47 / 49
页数:3
相关论文