共 2 条
一种基于大规模语料的新词识别方法
被引:25
作者:
贺敏
龚才春
张华平
程学旗
机构:
[1] 中国科学院计算技术研究所
来源:
关键词:
新词;
邻接类别;
单字成词概率;
双字耦合度;
D O I:
暂无
中图分类号:
TP391.43 [];
学科分类号:
0811 ;
081101 ;
081104 ;
1405 ;
摘要:
提出了一种基于大规模语料的新词识别方法,在重复串统计的基础上,结合分析不同串的外部环境和内部构成,依次判断上下文邻接种类,首尾单字位置成词概率以及双字耦合度等语言特征,分别过滤得到新词。通过在不同规模的语料上实验发现,此方法可行有效,能够应用到词典编撰,术语提取等领域。
引用
收藏
页码:157 / 159
页数:3
相关论文