共 6 条
融合词频特性及邻接变化数的微博新词识别
被引:11
作者:
周超
严馨
余正涛
洪旭东
线岩团
机构:
[1] 昆明理工大学信息工程与自动化学院计算机系,云南省计算机技术应用重点实验室
来源:
关键词:
邻接变化数;
微博新词;
字串频率统计;
成词规则;
D O I:
暂无
中图分类号:
TP393.092 [];
TP391.1 [文字信息处理];
学科分类号:
080402 ;
081203 ;
0835 ;
摘要:
大量的新词伴随着微博的快速发展而产生,这些新词具有传播速度快及与其他词组合方式灵活的特点,而且在进行分词处理时容易被切分为不同的字符串。提出了一种融合词频特性及邻接变化数的微博新词识别方法。该方法首先对大规模的微博语料进行分词,然后将在两停用词间的相邻字串两两组合,根据组合后的字串频率统计取得新词候选串,再通过组合成词规则进行筛选获得候选新词,最后通过词的邻接域变化特性去除垃圾串获得新词。利用该方法在COAE 2014评测任务上进行了新词的发现实验,准确率达到36.5%,取得了较好的成绩。
引用
收藏
页码:6 / 10
页数:5
相关论文