搜索日志中中文人名的自动识别

被引:1
作者
曾镇
吕学强
李卓
机构
[1] 北京信息科技大学网络文化与数字传播北京市重点实验室
基金
北京市自然科学基金;
关键词
搜索日志; 人名识别; 特征模板; 条件随机场; 条件概率;
D O I
暂无
中图分类号
TP391.43 [];
学科分类号
摘要
【目的】人名在搜索日志中大量存在,搜索日志中人名识别研究有助于提高搜索引擎的检索效果。【方法】提出一种搜索日志中识别中文人名的方法,首先分析日志中人名的内部组成结构以及外部上下文信息,提取7个特征,选用合适的特征模板,应用条件随机场模型初步识别人名。然后针对CRFs未能识别的人名其所在查询串字间组合共现频次较低的规律,设计贝叶斯条件概率计算公式筛选更多的人名。【结果】在搜狗日志中进行实验,开放测试结果准确率达到95%,F值达到91%。【局限】需要人工标注一定规模的训练语料。【结论】实验结果表明,该方法对于搜索日志中的人名识别是行之有效的。
引用
收藏
页码:71 / 77
页数:7
相关论文
共 11 条
[1]  
搜索引擎中命名实体查询处理相关技术研究.[D].伍大勇.哈尔滨工业大学.2012, 01
[2]  
网络日志挖掘及其在查询理解中的应用研究.[D].徐骥超.北方工业大学.2013, 10
[3]   基于Hive的海量搜索日志分析系统研究 [J].
赵龙 ;
江荣安 .
计算机应用研究, 2013, 30 (11) :3343-3345
[4]   基于半监督话题模型的用户查询日志命名实体挖掘 [J].
曹雷 ;
郭嘉丰 ;
白露 ;
程学旗 .
中文信息学报, 2012, (05) :26-32
[5]   基于随机游走模型的查询日志中命名实体挖掘 [J].
伍大勇 ;
刘挺 .
智能计算机与应用, 2012, 2 (04) :22-26+30
[6]   中文网页搜索日志中的特殊命名实体挖掘 [J].
张磊 ;
王斌 ;
靖红芳 ;
吴丽辉 .
哈尔滨工业大学学报, 2011, 43 (05) :119-122
[7]   基于日志挖掘的搜索引擎用户行为分析 [J].
岑荣伟 ;
刘奕群 ;
张敏 ;
茹立云 ;
马少平 .
中文信息学报, 2010, 24 (03) :49-54
[8]   一个统计与规则相结合的中文命名实体识别系统 [J].
向晓雯 ;
史晓东 ;
曾华琳 .
计算机应用, 2005, (10) :2404-2406
[9]   基于互信息的中文姓名识别方法 [J].
黄德根 ;
马玉霞 ;
杨元生 .
大连理工大学学报, 2004, (05) :744-748
[10]   基于角色标注的中国人名自动识别研究 [J].
张华平 ;
刘群 .
计算机学报, 2004, (01) :85-91