基于迭代算法的新词识别

被引:18
作者
赵小宝
张华平
机构
[1] 北京理工大学计算机学院
关键词
对偶原理; 新词识别; 迭代算法; 信息熵; 重复模式; 中文词语搭配库;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
新词识别是中文信息处理的重要基础,但中文字符极强的构词能力给新词检测带来较大困难。受对偶原理的启发,提出一种基于迭代算法的新词识别算法。对目标语料进行分词和词性标注,通过两遍扫描进行字符串统计并提取重复模式。结合词语结构的特征,迭代使用重复模式互信息、左(右)熵,左(右)邻右(左)平均熵等特征进行新词识别,获得候选新词列表。利用中文词语搭配库对候选新词列表进行最后一次过滤得到最终新词列表。实验结果表明,利用该方法进行新词识别,P@10值达到100%,P@100值提高至90%,左(右)邻右(左)平均熵可在一定程度上提高新词识别的准确率。
引用
收藏
页码:154 / 158+164 +164
页数:6
相关论文
共 8 条
[1]
语法讲义.[M].朱德熙[著];.商务印书馆.1982,
[2]
基于上下文感知的中文新词识别算法 [J].
李钝 ;
屠卫 ;
石磊 ;
陶永才 .
计算机工程与设计, 2012, 33 (10) :4022-4027
[3]
基于统计学习框架的中文新词检测方法 [J].
张海军 ;
栾静 ;
李勇 ;
齐向伟 .
计算机科学, 2012, 39 (02) :232-235
[4]
基于改进位置成词概率的新词识别 [J].
林自芳 ;
蒋秀凤 .
福州大学学报(自然科学版), 2011, 39 (01) :43-48
[5]
Chinese New Word Identification:A Latent Discriminative Model with Global Features [J].
孙晓 ;
黄德根 ;
宋海玉 ;
任福继 .
Journal of Computer Science & Technology, 2011, 26 (01) :14-24
[6]
面向Internet的中文新词语检测 [J].
邹纲 ;
刘洋 ;
刘群 ;
孟遥 ;
于浩 ;
西野文人 ;
亢世勇 .
中文信息学报, 2004, (06) :1-9
[7]
基于层叠隐马模型的汉语词法分析 [J].
刘群 ;
张华平 ;
俞鸿魁 ;
程学旗 .
计算机研究与发展, 2004, (08) :1421-1429
[8]
基于构词法的网络新词自动识别初探 [J].
郑家恒 ;
李文花 .
山西大学学报(自然科学版), 2002, (02) :115-119