一种基于大规模语料的新词识别方法

被引：25

作者：

贺敏

龚才春

张华平

程学旗

机构：

[1] 中国科学院计算技术研究所

来源：

关键词：

新词; 邻接类别; 单字成词概率; 双字耦合度;

D O I：

暂无

中图分类号：

TP391.43 [];

学科分类号：

0811 ; 081101 ; 081104 ; 1405 ;

摘要：

提出了一种基于大规模语料的新词识别方法,在重复串统计的基础上,结合分析不同串的外部环境和内部构成,依次判断上下文邻接种类,首尾单字位置成词概率以及双字耦合度等语言特征,分别过滤得到新词。通过在不同规模的语料上实验发现,此方法可行有效,能够应用到词典编撰,术语提取等领域。

引用

页码：157 / 159

页数：3