一种新的基于统计的词典扩展方法

被引:9
作者
周正宇
李宗葛
机构
[1] 复旦大学计算机科学系!上海
关键词
词典; 关联范数估计; 右边缘扩展法; 语言模型;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
在建立统计语言模型时 ,往往会遇到词典的词汇量不够的问题。对于医学等专业领域的语料 ,这一问题尤为严重。针对这一问题 ,本文提出了一种新的基于统计的识别新词方法———右边缘扩展法。该方法对分词后的语料中产生的连续单字词进行关联范数估计 ,利用右边缘扩展的方法判断词的边界。在实验中 ,我们将右边缘扩展法与基于Witten Bellbackoff方法的两两合并法相结合 ,循环地调整词典 ,优化语言模型。实验结果表明 ,该算法具有很高的识别正确率与检出率 ,可以有效地识别出语料中出现的新词汇 ,尤其是专业术语
引用
收藏
页码:46 / 51
页数:6
相关论文
共 4 条
[1]  
Tang Haijiang,Pascale Fung.A multi-path syllable to word decoder with language model optimization and automatic lexicon augmentation. . 2000
[2]  
Gao Jianfeng,Wang Hai-Feng,Li Mingjing,et al.A Unified Approach to Statistical Language Modeling for Chinese. . 2000
[3]  
Witten I H,Bell T C.The zero-frequency problem: estimation the probabilities of novel events in adaptive text compression. IEEE Transactions on Information Theory . 1991
[4]  
Chien Lee-Feng.PAT-tree-based adaptive keyphrase extraction for Intelligent Chinese Information Retrieval. Information Processing Letters . 1999