基于互信息和邻接熵的新词发现算法

被引:31
作者
刘伟童 [1 ,2 ]
刘培玉 [1 ,2 ]
刘文锋 [1 ,3 ]
李娜娜 [1 ,2 ]
机构
[1] 山东师范大学信息科学与工程学院
[2] 山东省分布式计算机软件新技术重点实验室
[3] 菏泽学院计算机学院
关键词
新词发现; 互信息; 邻接熵; 微博语料;
D O I
10.19734/j.issn.1001-3695.2017.11.0745
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
如何快速高效地识别新词是自然语言处理中一项非常重要的任务。针对当前新词发现存在的问题,提出了一种从左至右逐字在未切词的微博语料中发现新词的算法。通过计算候选词语与其右邻接字的互信息来逐字扩展,得到候选新词;并通过计算邻接熵、删除候选新词的首尾停用词和过滤旧词语等方法来过滤候选新词,最终得到新词集。解决了因切词错误导致部分新词无法识别以及通过n-gram方法导致大量重复词串和垃圾词串识别为新词的问题。最后通过实验验证了该算法的有效性。
引用
收藏
页码:1293 / 1296
页数:4
相关论文
共 11 条
[1]   面向网络语言基于微博语料的新词发现方法 [J].
雷一鸣 ;
刘勇 ;
霍华 .
计算机工程与设计, 2017, 38 (03) :789-794
[2]   基于改进互信息和邻接熵的微博新词发现方法 [J].
夭荣朋 ;
许国艳 ;
宋健 .
计算机应用, 2016, 36 (10) :2772-2776
[3]   基于词内部结合度和边界自由度的新词发现 [J].
李文坤 ;
张仰森 ;
陈若愚 .
计算机应用研究, 2015, 32 (08) :2302-2304+2342
[4]   融合词频特性及邻接变化数的微博新词识别 [J].
周超 ;
严馨 ;
余正涛 ;
洪旭东 ;
线岩团 .
山东大学学报(理学版), 2015, 50 (03) :6-10
[5]   基于微博内容的新词发现方法 [J].
霍帅 ;
张敏 ;
刘奕群 ;
马少平 .
模式识别与人工智能, 2014, 27 (02) :141-145
[6]   基于条件随机场方法的开放领域新词发现 [J].
陈飞 ;
刘奕群 ;
魏超 ;
张云亮 ;
张敏 ;
马少平 .
软件学报, 2013, 24 (05) :1051-1060
[7]   基于词内部模式的新词识别 [J].
林自芳 ;
蒋秀凤 .
计算机与现代化, 2010, (11) :162-164+167
[8]   基于构词法的网络新词自动识别初探 [J].
郑家恒 ;
李文花 .
山西大学学报(自然科学版), 2002, (02) :115-119
[9]  
针对特定领域的中文新词发现技术研究.[D].李明.南京航空航天大学.2012, 04
[10]  
中文新词检测与分析.[D].崔世起.中国科学院研究生院(计算技术研究所).2006, 10