基于改进互信息和邻接熵的微博新词发现方法

被引:25
作者
夭荣朋
许国艳
宋健
机构
[1] 河海大学计算机与信息学院
关键词
新词发现; 多字词; N-Gram; 互信息; 邻接熵;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
针对目前微博新词发现算法中的数据稀疏、可移植性较差以及缺乏对多字词(大于三字)识别的问题,提出了基于改进互信息(MI)和邻接熵(BE)的微博新词发现算法——MBN-Gram。首先,利用N元递增算法(N-Gram)提取新词的候选项,对提取出来的候选新词使用频率和停用字等规则进行过滤;接着再利用改进MI和BE对候选项进行扩展及再过滤;最后,结合相应词典进行筛选,从而得到新词。通过理论及实验分析,MBN-Gram算法在准确率、召回率及F值上均有一定提高。实验结果表明,MBN-Gram算法是有效可行的。
引用
收藏
页码:2772 / 2776
页数:5
相关论文
共 10 条
[1]   基于词内部结合度和边界自由度的新词发现 [J].
李文坤 ;
张仰森 ;
陈若愚 .
计算机应用研究, 2015, 32 (08) :2302-2304+2342
[2]   融合词频特性及邻接变化数的微博新词识别 [J].
周超 ;
严馨 ;
余正涛 ;
洪旭东 ;
线岩团 .
山东大学学报(理学版), 2015, 50 (03) :6-10
[3]   基于微博内容的新词发现方法 [J].
霍帅 ;
张敏 ;
刘奕群 ;
马少平 .
模式识别与人工智能, 2014, 27 (02) :141-145
[4]   基于条件随机场方法的开放领域新词发现 [J].
陈飞 ;
刘奕群 ;
魏超 ;
张云亮 ;
张敏 ;
马少平 .
软件学报, 2013, 24 (05) :1051-1060
[5]   基于词内部模式的新词识别 [J].
林自芳 ;
蒋秀凤 .
计算机与现代化, 2010, (11) :162-164+167
[6]   中文新词识别技术综述 [J].
张海军 ;
史树敏 ;
朱朝勇 ;
黄河燕 .
计算机科学, 2010, 37 (03) :6-10+16
[7]  
针对特定领域的中文新词发现技术研究.[D].李明.南京航空航天大学.2012, 04
[8]  
基于大规模语料的中文新词抽取算法的设计与实现.[D].丁溪源.南京理工大学.2011, 12
[9]  
中文新词检测与分析.[D].崔世起.中国科学院研究生院(计算技术研究所).2006, 10
[10]  
Unknown Chinese word extraction based on variety of overlapping strings.[J].Yunming Ye;Qingyao Wu;Yan Li;K.P. Chow;Lucas C.K. Hui;S.M. Yiu.Information Processing and Management.2012,