用户查询日志中的中文机构名识别

被引:4
作者
关晓炟 [1 ]
吕学强 [1 ]
李卓 [1 ]
郑略省 [1 ,2 ]
机构
[1] 北京信息科技大学网络文化与数字传播北京市重点实验室
[2] 北京大学计算语言学研究所
基金
北京市自然科学基金;
关键词
用户查询日志; 中文机构名; 语料构建; 粘合度; 条件随机场;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
【目的】解决在用户查询日志中识别机构名的标注语料资源匮乏及信息不对称问题。【方法】提出一种自动构建用户查询日志机构名训练语料的方法,解决目前用户查询日志语料资源匮乏的问题。提出粘合度概念解决信息不对称问题,结合上下文等信息,采用条件随机场模型进行机构名识别。【结果】该方法在搜狗用户查询日志上的开放测试结果显示,机构名识别的正确率为72.80%,召回率为86.73%,F值为79.16%,比传统机构名识别方法在日志上的F值提高30%。【局限】语料构建方法仅仅是模拟查询日志的特点,但训练模型的误差仍然会大于规范化标注的查询日志语料;机构名表的数据量大小会影响模型对上下文知识学习的完备性。【结论】实验表明该方法应用于用户查询日志中的机构名识别是有效的。
引用
收藏
页码:72 / 78
页数:7
相关论文
共 12 条
[1]   基于含边界词性特征的中文命名实体识别 [J].
邱莎 ;
王付艳 ;
申浩如 ;
段玻 ;
阿圆 ;
丁海燕 .
计算机工程, 2012, 38 (13) :128-130
[2]   CCRF与规则相结合的中文机构名识别 [J].
杨晓东 ;
晏立 ;
尤慧丽 .
计算机工程, 2011, 37 (08) :169-171+174
[3]   CRF与规则相结合的地理空间命名实体识别 [J].
鞠久朋 ;
张伟伟 ;
宁建军 ;
周国栋 .
计算机工程, 2011, 37 (07) :210-212+215
[4]   基于SVM和CRF的双层模型中文机构名识别 [J].
黄德根 ;
李泽中 ;
万如 .
大连理工大学学报, 2010, 50 (05) :782-787
[5]   结合多特征的支持向量机中文组织机构名识别模型 [J].
冯丽萍 ;
焦莉娟 .
现代计算机(专业版), 2010, (07) :24-27
[6]   基于Tri-training半监督学习的中文组织机构名识别 [J].
蔡月红 ;
朱倩 ;
程显毅 .
计算机应用研究, 2010, 27 (01) :193-195
[7]   基于多层条件随机场的中文命名实体识别 [J].
胡文博 ;
都云程 ;
吕学强 ;
施水才 .
计算机工程与应用, 2009, 45 (01) :163-165+227
[8]   中文组织机构名称与简称的识别 [J].
沈嘉懿 ;
李芳 ;
徐飞玉 ;
Hans Uszkoreit .
中文信息学报, 2007, (06) :17-21
[9]   基于层叠条件随机场模型的中文机构名自动识别 [J].
周俊生 ;
戴新宇 ;
尹存燕 ;
陈家骏 .
电子学报, 2006, (05) :804-809
[10]   中文机构名称的识别与分析 [J].
张小衡 ;
王玲玲 .
中文信息学报, 1997, (04) :22-33