一种新词检测方法研究

被引:6
作者
钟将
耿升华
董高峰
机构
[1] 重庆大学计算机学院
关键词
新词; 互信息; 信息熵; 词频; 垃圾串;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
汉语自动分词是进行中文信息处理的基础。目前,困扰汉语自动分词的一个主要难题就是新词自动识别,尤其是非专名新词的自动识别。同时,新词自动识别对于汉语词典的编纂也有着极为重要的意义。提出一种新的未登录词识别方法,该方法混合了互信息、信息熵及词频等3个评价指标评价新词,并在此基础上添加了垃圾串过滤机制,大幅度提高了新词识别准确率和召回率。
引用
收藏
页码:1 / 5+23 +23
页数:6
相关论文
共 11 条
[1]   基于外部排序的字串左右熵快速计算方法 [J].
张海军 ;
彭成 ;
栾静 .
计算机工程与应用, 2011, 47 (19) :18-20
[2]   基于统计信息的未登录词的扩展识别方法 [J].
韩艳 ;
林煜熙 ;
姚建民 .
中文信息学报, 2009, 23 (03) :24-30+50
[3]   基于大规模语料库的新词检测 [J].
崔世起 ;
刘群 ;
孟遥 ;
于浩 ;
西野文人 .
计算机研究与发展 , 2006, (05) :927-932
[4]   基于语料库和网络的新词自动识别 [J].
刘建舟 ;
何婷婷 ;
骆昌日 .
计算机应用, 2004, (07) :132-134
[5]   基于角色标注的中国人名自动识别研究 [J].
张华平 ;
刘群 .
计算机学报, 2004, (01) :85-91
[6]   句子相似模型和最相似句子查找算法 [J].
吕学强 ;
任飞亮 ;
黄志丹 ;
姚天顺 ;
不详 .
东北大学学报 , 2003, (06) :531-534
[7]   一种新的基于统计的词典扩展方法 [J].
周正宇 ;
李宗葛 .
中文信息学报, 2001, (05) :46-51
[8]   一个汉语词义自动标注系统的设计与实现 [J].
葛瑞芳 ;
李涓子 .
计算机工程与应用, 2001, (17) :170-173
[9]   自然语言处理中词语上下文有效范围的定量描述 [J].
鲁松 ;
白硕 .
计算机学报, 2001, (07) :742-747