学术探索
学术期刊
学术作者
新闻热点
数据分析
智能评审
一种面向微博文本的命名实体识别方法
被引:27
作者
:
论文数:
引用数:
h-index:
机构:
李刚
论文数:
引用数:
h-index:
机构:
黄永峰
机构
:
[1]
清华大学电子工程系NGN实验室
来源
:
电子技术应用
|
2018年
/ 44卷
/ 01期
关键词
:
命名实体识别;
微博;
条件随机场;
词向量;
主动学习;
D O I
:
10.16157/j.issn.0258-7998.179024
中图分类号
:
TP391.1 [文字信息处理];
学科分类号
:
120506
[数字人文]
;
摘要
:
命名实体识别是自然语言处理领域的一项基础性技术。近年来微博等网络社交平台发展迅速,其独特的形式对传统的命名实体识别技术提出了新的挑战。故提出一种基于条件随机场模型的改进方法,针对微博文本短小、语义含糊等特点,引入外部数据源提取主题特征和词向量特征来训练模型,针对微博数据规模大、人工标准化处理代价大的特点,采取一种基于最小置信度的主动学习算法,以较小的人工代价强化模型的训练效果。在新浪微博数据集上的实验证明,该方法与传统的条件随机场方法相比F值提高了4.54%。
引用
收藏
页码:118 / 120+124 +124
页数:4
相关论文
未找到相关数据
未找到相关数据