基于大规模语料库的新词检测

被引：31

作者：

崔世起 ^{[1
]}

刘群 ^{[1
]}

孟遥 ^{[2
]}

于浩 ^{[2
]}

西野文人 ^{[2
]}

机构：

[1] 不详

[2] 中国科学院计算技术研究所数字化技术研究室

[3] 不详

[4] 中国科学院研究生院

[5] 不详

来源：

计算机研究与发展 | 2006年 / 05期

关键词：

新词; 垃圾串; 垃圾头; 垃圾尾; 独立词概率;

D O I：

暂无

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

摘要：

自然语言的发展提出了快速跟踪新词的要求.提出了一种基于大规模语料库的新词检测方法,首先在大规模的Internet生语料上进行中文词法切分,然后在分词的基础上进行频度统计得到大量的候选新词.针对二元新词、三元新词、四元新词等的常见模式,用自学习的方法产生3个垃圾词典和一个词缀词典对候选新词进行垃圾过滤,最后使用词性过滤规则和独立词概率技术进一步过滤.据此实现了一个基于Internet的进行在线新词检测的系统,并取得了令人满意的性能.系统已经可以应用到新词检测、术语库建立、热点命名实体统计和词典编纂等领域.

引用

页码：927 / 932

页数：6