基于大规模语料库的新词检测

被引:31
作者
崔世起 [1 ]
刘群 [1 ]
孟遥 [2 ]
于浩 [2 ]
西野文人 [2 ]
机构
[1] 不详
[2] 中国科学院计算技术研究所数字化技术研究室
[3] 不详
[4] 中国科学院研究生院
[5] 不详
关键词
新词; 垃圾串; 垃圾头; 垃圾尾; 独立词概率;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
自然语言的发展提出了快速跟踪新词的要求.提出了一种基于大规模语料库的新词检测方法,首先在大规模的Internet生语料上进行中文词法切分,然后在分词的基础上进行频度统计得到大量的候选新词.针对二元新词、三元新词、四元新词等的常见模式,用自学习的方法产生3个垃圾词典和一个词缀词典对候选新词进行垃圾过滤,最后使用词性过滤规则和独立词概率技术进一步过滤.据此实现了一个基于Internet的进行在线新词检测的系统,并取得了令人满意的性能.系统已经可以应用到新词检测、术语库建立、热点命名实体统计和词典编纂等领域.
引用
收藏
页码:927 / 932
页数:6
相关论文
empty
未找到相关数据