共 4 条
基于微博内容的新词发现方法
被引:27
作者:
霍帅
张敏
刘奕群
马少平
机构:
[1] 智能技术与系统国家重点实验室
[2] 清华信息科学与技术国家实验室(筹)
[3] 清华大学计算机科学与技术系
来源:
关键词:
新词发现;
上下文熵;
未登录词提取;
D O I:
10.16451/j.cnki.issn1003-6059.2014.02.001
中图分类号:
TP391.1 [文字信息处理];
学科分类号:
081203 ;
0835 ;
摘要:
新词发现在自然语言处理领域具有重要意义,在微博内容上的新词发现比在一般语料上更难.文中提出引入词关联性信息的迭代上下文熵算法,并通过上下文关系获取新词候选列表进行过滤.为进一步提高精度,引入自然语言处理中的词法特征,提出与统计特征相结合的过滤方法.与现有方法相比,准确率和召回率均有大幅提高,F-值提高到89.6%.
引用
收藏
页码:141 / 145
页数:5
相关论文