学术探索
学术期刊
学术作者
新闻热点
数据分析
智能评审
基于二元背景模型的新词发现
被引:28
作者
:
论文数:
引用数:
h-index:
机构:
吴悦
[
1
]
燕鹏举
论文数:
0
引用数:
0
h-index:
0
机构:
盛大语音创新院
复旦大学数学科学学院
燕鹏举
[
2
]
翟鲁峰
论文数:
0
引用数:
0
h-index:
0
机构:
盛大语音创新院
复旦大学数学科学学院
翟鲁峰
[
2
]
机构
:
[1]
复旦大学数学科学学院
[2]
盛大语音创新院
来源
:
清华大学学报(自然科学版)
|
2011年
/ 51卷
/ 09期
关键词
:
新词发现;
二元组;
背景模型;
似然比;
D O I
:
10.16511/j.cnki.qhdxxb.2011.09.033
中图分类号
:
TP391.1 [文字信息处理];
学科分类号
:
120506
[数字人文]
;
摘要
:
该文提出一种基于二元背景模型的新词发现方法。采用前、背景语料二元似然比挑选候选二元组(bigram);然后根据频率、刚性、条件概率等基于前景语料的统计量,对二元组进行进一步筛选和扩展,以确定新词边界。用该方法提取出的词既包含新词特征,又可以成词。而且该方法充分利用现有背景生语料却无需分词等标注信息,不依赖词典、分词模型和规则,具有良好的扩展性。为了得到更好的发现效果,还讨论了各统计量阈值的选取策略和垃圾元素剔除策略。该方法在网络小说语料上验证了其有效性。
引用
收藏
页码:1317 / 1320
页数:4
相关论文
共 3 条
[1]
一种开放式中文命名实体识别的新方法.[A].齐振宇;赵军;杨帆;.第五届全国信息检索学术会议.2009,
[2]
基于统计信息的未登录词的扩展识别方法
[J].
韩艳
论文数:
0
引用数:
0
h-index:
0
机构:
苏州大学江苏省计算机信息处理重点实验室
韩艳
;
林煜熙
论文数:
0
引用数:
0
h-index:
0
机构:
苏州大学江苏省计算机信息处理重点实验室
林煜熙
;
论文数:
引用数:
h-index:
机构:
姚建民
.
中文信息学报,
2009,
(03)
:24
-30+50
[3]
基于概率统计技术和规则方法的新词发现
[J].
论文数:
引用数:
h-index:
机构:
贾自艳
;
论文数:
引用数:
h-index:
机构:
史忠植
.
计算机工程,
2004,
(20)
:19
-21+83
←
1
→
共 3 条
[1]
一种开放式中文命名实体识别的新方法.[A].齐振宇;赵军;杨帆;.第五届全国信息检索学术会议.2009,
[2]
基于统计信息的未登录词的扩展识别方法
[J].
韩艳
论文数:
0
引用数:
0
h-index:
0
机构:
苏州大学江苏省计算机信息处理重点实验室
韩艳
;
林煜熙
论文数:
0
引用数:
0
h-index:
0
机构:
苏州大学江苏省计算机信息处理重点实验室
林煜熙
;
论文数:
引用数:
h-index:
机构:
姚建民
.
中文信息学报,
2009,
(03)
:24
-30+50
[3]
基于概率统计技术和规则方法的新词发现
[J].
论文数:
引用数:
h-index:
机构:
贾自艳
;
论文数:
引用数:
h-index:
机构:
史忠植
.
计算机工程,
2004,
(20)
:19
-21+83
←
1
→