融合词频特性及邻接变化数的微博新词识别

被引:11
作者
周超
严馨
余正涛
洪旭东
线岩团
机构
[1] 昆明理工大学信息工程与自动化学院计算机系,云南省计算机技术应用重点实验室
关键词
邻接变化数; 微博新词; 字串频率统计; 成词规则;
D O I
暂无
中图分类号
TP393.092 []; TP391.1 [文字信息处理];
学科分类号
080402 ; 081203 ; 0835 ;
摘要
大量的新词伴随着微博的快速发展而产生,这些新词具有传播速度快及与其他词组合方式灵活的特点,而且在进行分词处理时容易被切分为不同的字符串。提出了一种融合词频特性及邻接变化数的微博新词识别方法。该方法首先对大规模的微博语料进行分词,然后将在两停用词间的相邻字串两两组合,根据组合后的字串频率统计取得新词候选串,再通过组合成词规则进行筛选获得候选新词,最后通过词的邻接域变化特性去除垃圾串获得新词。利用该方法在COAE 2014评测任务上进行了新词的发现实验,准确率达到36.5%,取得了较好的成绩。
引用
收藏
页码:6 / 10
页数:5
相关论文
共 6 条
[1]   归一化的邻接变化数方法在中文分词中的应用 [J].
何赛克 ;
王小捷 ;
董远 ;
张韬政 ;
白雪 .
中文信息学报, 2010, (01) :15-19
[2]   基于大规模语料库的新词检测 [J].
崔世起 ;
刘群 ;
孟遥 ;
于浩 ;
西野文人 .
计算机研究与发展 , 2006, (05) :927-932
[3]   面向Internet的中文新词语检测 [J].
邹纲 ;
刘洋 ;
刘群 ;
孟遥 ;
于浩 ;
西野文人 ;
亢世勇 .
中文信息学报, 2004, (06) :1-9
[4]   基于语料库和网络的新词自动识别 [J].
刘建舟 ;
何婷婷 ;
骆昌日 .
计算机应用, 2004, (07) :132-134
[5]   基于构词法的网络新词自动识别初探 [J].
郑家恒 ;
李文花 .
山西大学学报(自然科学版), 2002, (02) :115-119
[6]   一种新的基于统计的词典扩展方法 [J].
周正宇 ;
李宗葛 .
中文信息学报, 2001, (05) :46-51