一种新词检测方法研究

被引：6

作者：

钟将

耿升华

董高峰

机构：

[1] 重庆大学计算机学院

来源：

数字通信 | 2013年 / 40卷 / 02期

关键词：

新词; 互信息; 信息熵; 词频; 垃圾串;

D O I：

暂无

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

摘要：

汉语自动分词是进行中文信息处理的基础。目前,困扰汉语自动分词的一个主要难题就是新词自动识别,尤其是非专名新词的自动识别。同时,新词自动识别对于汉语词典的编纂也有着极为重要的意义。提出一种新的未登录词识别方法,该方法混合了互信息、信息熵及词频等3个评价指标评价新词,并在此基础上添加了垃圾串过滤机制,大幅度提高了新词识别准确率和召回率。

引用

收藏

页码：1 / 5+23 +23

页数：6

相关论文

共 11 条

[1] 基于外部排序的字串左右熵快速计算方法 [J].

张海军 ;

彭成 ;

栾静 .

计算机工程与应用, 2011, 47 (19) :18-20

[2] 基于统计信息的未登录词的扩展识别方法 [J].

韩艳 ;

林煜熙 ;

姚建民 .

中文信息学报, 2009, 23 (03) :24-30+50

[3] 基于大规模语料库的新词检测 [J].

崔世起 ;

刘群 ;

孟遥 ;

于浩 ;

西野文人 .

计算机研究与发展 , 2006, (05) :927-932

[4] 基于语料库和网络的新词自动识别 [J].

刘建舟 ;

何婷婷 ;

骆昌日 .

计算机应用, 2004, (07) :132-134

[5] 基于角色标注的中国人名自动识别研究 [J].

张华平 ;

刘群 .

计算机学报, 2004, (01) :85-91

[6] 句子相似模型和最相似句子查找算法 [J].

吕学强 ;

任飞亮 ;

黄志丹 ;

姚天顺 ;

不详 .

东北大学学报 , 2003, (06) :531-534

[7] 一种新的基于统计的词典扩展方法 [J].

周正宇 ;

李宗葛 .

中文信息学报, 2001, (05) :46-51

[8] 一个汉语词义自动标注系统的设计与实现 [J].

葛瑞芳 ;

李涓子 .

计算机工程与应用, 2001, (17) :170-173

[9] 自然语言处理中词语上下文有效范围的定量描述 [J].

鲁松 ;

白硕 .

计算机学报, 2001, (07) :742-747

[10] Chinese Word Boundary Ambiguity and Unknown Word Resolution Using Unsupervised Methods [J].

傅国宏 .

High Technology Letters, 2000, (02) :29-39