基于二元背景模型的新词发现

被引：28

作者：

吴悦 ^{[1
]}

燕鹏举 ^{[2
]}

翟鲁峰 ^{[2
]}

机构：

[1] 复旦大学数学科学学院

[2] 盛大语音创新院

来源：

清华大学学报(自然科学版) | 2011年 / 51卷 / 09期

关键词：

新词发现; 二元组; 背景模型; 似然比;

D O I：

10.16511/j.cnki.qhdxxb.2011.09.033

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

120506 [数字人文];

摘要：

该文提出一种基于二元背景模型的新词发现方法。采用前、背景语料二元似然比挑选候选二元组(bigram);然后根据频率、刚性、条件概率等基于前景语料的统计量,对二元组进行进一步筛选和扩展,以确定新词边界。用该方法提取出的词既包含新词特征,又可以成词。而且该方法充分利用现有背景生语料却无需分词等标注信息,不依赖词典、分词模型和规则,具有良好的扩展性。为了得到更好的发现效果,还讨论了各统计量阈值的选取策略和垃圾元素剔除策略。该方法在网络小说语料上验证了其有效性。

引用

页码：1317 / 1320

页数：4