基于微博内容的新词发现方法

被引:27
作者
霍帅
张敏
刘奕群
马少平
机构
[1] 智能技术与系统国家重点实验室
[2] 清华信息科学与技术国家实验室(筹)
[3] 清华大学计算机科学与技术系
关键词
新词发现; 上下文熵; 未登录词提取;
D O I
10.16451/j.cnki.issn1003-6059.2014.02.001
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
新词发现在自然语言处理领域具有重要意义,在微博内容上的新词发现比在一般语料上更难.文中提出引入词关联性信息的迭代上下文熵算法,并通过上下文关系获取新词候选列表进行过滤.为进一步提高精度,引入自然语言处理中的词法特征,提出与统计特征相结合的过滤方法.与现有方法相比,准确率和召回率均有大幅提高,F-值提高到89.6%.
引用
收藏
页码:141 / 145
页数:5
相关论文
共 4 条
[1]   博客语料的新词发现方法 [J].
黄轩 ;
李熔烽 .
现代电子技术, 2013, 36 (02) :144-146+149
[2]   当代汉语新词新语探析 [J].
杨绪明 ;
杨文全 .
汉语学习, 2009, (01) :97-104
[3]   一种快速获取领域新词语的新方法 [J].
刘华 .
中文信息学报, 2006, (05) :17-23
[4]   面向Internet的中文新词语检测 [J].
邹纲 ;
刘洋 ;
刘群 ;
孟遥 ;
于浩 ;
西野文人 ;
亢世勇 .
中文信息学报, 2004, (06) :1-9