基于二元背景模型的新词发现

被引:28
作者
吴悦 [1 ]
燕鹏举 [2 ]
翟鲁峰 [2 ]
机构
[1] 复旦大学数学科学学院
[2] 盛大语音创新院
关键词
新词发现; 二元组; 背景模型; 似然比;
D O I
10.16511/j.cnki.qhdxxb.2011.09.033
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
该文提出一种基于二元背景模型的新词发现方法。采用前、背景语料二元似然比挑选候选二元组(bigram);然后根据频率、刚性、条件概率等基于前景语料的统计量,对二元组进行进一步筛选和扩展,以确定新词边界。用该方法提取出的词既包含新词特征,又可以成词。而且该方法充分利用现有背景生语料却无需分词等标注信息,不依赖词典、分词模型和规则,具有良好的扩展性。为了得到更好的发现效果,还讨论了各统计量阈值的选取策略和垃圾元素剔除策略。该方法在网络小说语料上验证了其有效性。
引用
收藏
页码:1317 / 1320
页数:4
相关论文
共 3 条
[1]
一种开放式中文命名实体识别的新方法.[A].齐振宇;赵军;杨帆;.第五届全国信息检索学术会议.2009,
[2]
基于统计信息的未登录词的扩展识别方法 [J].
韩艳 ;
林煜熙 ;
姚建民 .
中文信息学报, 2009, (03) :24-30+50
[3]
基于概率统计技术和规则方法的新词发现 [J].
贾自艳 ;
史忠植 .
计算机工程, 2004, (20) :19-21+83