面向网络语言基于微博语料的新词发现方法

被引:31
作者
雷一鸣
刘勇
霍华
机构
[1] 河南科技大学信息工程学院
关键词
新词发现; 微博语料; 互信息; 词内部耦合度; 外部统计量;
D O I
10.16208/j.issn1000-7024.2017.03.043
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
为对微博语料中的中文新词进行有效的识别发现,针对微博语料的文本特性,提出一种基于词语互信息模型和外部统计量的新词发现方法。采用互信息统计模型基于候选词内部最小搭配单元向右邻元扩展统计的方法,建立候选词集;针对统计特性、语料特征,进行低频筛选,引入外部统计量的概念进行过滤。该统计方法解决了基于互信息统计模型用于新词发现时只能统计两组成元素的局限性,规避了影响新词发现研究准确性能的N元重叠问题,过滤方法对于包含大量短语句的微博语料用着良好作用,通过实例与对比验证了该方法的有效性。
引用
收藏
页码:789 / 794
页数:6
相关论文
共 9 条
[1]
基于迭代算法的新词识别 [J].
赵小宝 ;
张华平 .
计算机工程, 2014, 40 (07) :154-158+164
[2]
基于微博内容的新词发现方法 [J].
霍帅 ;
张敏 ;
刘奕群 ;
马少平 .
模式识别与人工智能, 2014, 27 (02) :141-145
[3]
基于网络资源与用户行为信息的领域术语提取 [J].
闫兴龙 ;
刘奕群 ;
方奇 ;
张敏 ;
马少平 ;
茹立云 .
软件学报, 2013, 24 (09) :2089-2100
[4]
博客语料的新词发现方法 [J].
黄轩 ;
李熔烽 .
现代电子技术, 2013, 36 (02) :144-146+149
[5]
基于上下文感知的中文新词识别算法 [J].
李钝 ;
屠卫 ;
石磊 ;
陶永才 .
计算机工程与设计, 2012, 33 (10) :4022-4027
[6]
基于购物网站用户搜索日志的商品词发现 [J].
杨锦锋 ;
吕新波 ;
关毅 ;
周春波 .
计算机应用与软件, 2011, 28 (11) :108-111+160
[7]
基于二元背景模型的新词发现 [J].
吴悦 ;
燕鹏举 ;
翟鲁峰 .
清华大学学报(自然科学版), 2011, 51 (09) :1317-1320
[8]
A New Word Detection Method for Chinese Based on Local Context Information.[J].曾华琳;周昌乐;郑旭玲;.Journal of Donghua University(English Edition).2010, 02
[9]
中文新词识别技术综述 [J].
张海军 ;
史树敏 ;
朱朝勇 ;
黄河燕 .
计算机科学, 2010, 37 (03) :6-10+16