融合规则与统计的微博新词发现方法

被引:35
作者
周霜霜
徐金安
陈钰枫
张玉洁
机构
[1] 北京交通大学计算机与信息技术学院
基金
中央高校基本科研业务费专项资金资助;
关键词
微博新词; 构词规则; 统计量特征; C/NC-value方法; 条件随机场模型;
D O I
暂无
中图分类号
TP391.1 [文字信息处理]; TP393.092 [];
学科分类号
120506 [数字人文];
摘要
结合微博新词的构词规则自由度大和极其复杂的特点,针对传统的C/NC-value方法抽取的结果新词边界的识别准确率不高,以及低频微博新词无法正确识别的问题,提出了一种融合人工启发式规则、C/NC-value改进算法和条件随机场(CRF)模型的微博新词抽取方法。一方面,人工启发式规则是指对微博新词的分类和归纳总结,并从微博新词构词的词性(POS)、字符类别和表意符号等角度设计的微博新词的构词规则;另一方面,改进的C/NC-value方法通过引入词频、邻接熵和互信息等统计量来重构NC-value目标函数,并使用CRF模型训练和识别新词,最终达到提高新词边界识别准确率和低频新词识别精度的目的。实验结果显示,与传统方法相比,所提出的方法能有效地提高微博新词识别的F值。
引用
收藏
页码:1044 / 1050
页数:7
相关论文
共 5 条
[1]
Unknown Chinese word extraction based on variety of overlapping strings.[J].Yunming Ye;Qingyao Wu;Yan Li;K.P. Chow;Lucas C.K. Hui;S.M. Yiu.Information Processing and Management.2012,
[2]
Automatic recognition of multi-word terms: The C-value/NC-value method [J].
Frantzi K. ;
Ananiadou S. ;
Mima H. .
International Journal on Digital Libraries, 2000, 3 (2) :115-130
[3]
基于上下文词频词汇量指标的新词发现方法 [J].
邢恩军 ;
赵富强 .
计算机应用与软件, 2016, 33 (06) :64-67
[4]
基于互信息改进算法的新词发现对中文分词系统改进 [J].
杜丽萍 ;
李晓戈 ;
于根 ;
刘春丽 ;
刘睿 .
北京大学学报(自然科学版), 2016, 52 (01) :35-40
[5]
面向Internet的中文新词语检测 [J].
邹纲 ;
刘洋 ;
刘群 ;
孟遥 ;
于浩 ;
西野文人 ;
亢世勇 .
中文信息学报, 2004, (06) :1-9