共 12 条
用户查询日志中的中文机构名识别
被引:4
作者:
关晓炟
[1
]
吕学强
[1
]
李卓
[1
]
郑略省
[1
,2
]
机构:
[1] 北京信息科技大学网络文化与数字传播北京市重点实验室
[2] 北京大学计算语言学研究所
来源:
基金:
北京市自然科学基金;
关键词:
用户查询日志;
中文机构名;
语料构建;
粘合度;
条件随机场;
D O I:
暂无
中图分类号:
TP391.1 [文字信息处理];
学科分类号:
摘要:
【目的】解决在用户查询日志中识别机构名的标注语料资源匮乏及信息不对称问题。【方法】提出一种自动构建用户查询日志机构名训练语料的方法,解决目前用户查询日志语料资源匮乏的问题。提出粘合度概念解决信息不对称问题,结合上下文等信息,采用条件随机场模型进行机构名识别。【结果】该方法在搜狗用户查询日志上的开放测试结果显示,机构名识别的正确率为72.80%,召回率为86.73%,F值为79.16%,比传统机构名识别方法在日志上的F值提高30%。【局限】语料构建方法仅仅是模拟查询日志的特点,但训练模型的误差仍然会大于规范化标注的查询日志语料;机构名表的数据量大小会影响模型对上下文知识学习的完备性。【结论】实验表明该方法应用于用户查询日志中的机构名识别是有效的。
引用
收藏
页码:72 / 78
页数:7
相关论文