搜索引擎查询日志的词性标注和挖掘研究

被引:8
作者
赖茂生
屈鹏
机构
[1] 北京大学信息管理系
关键词
日志挖掘; 词性标注; 语言行为; 词性分布; 查询句法;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
利用搜狗(Sogou)2007年3月的查询日志,使用词性标注方法,得出高频词性标注结果的分布特征。发现用户在查询中以使用名词为主,动词为辅,鲜有其它词类出现在高频词性标注结果中。以"的"为代表的虚词较少地出现在高频词性标注结果中。网络搜索的查询式与自然语言在句法上存在一定差异,但也有相通之处。用户主要使用名词进行概念性检索,关键词仍为用户进行检索的主要手段。高频词性标注结果部分符合Zipf定律。
引用
收藏
页码:50 / 56
页数:7
相关论文
共 6 条
[1]   网络搜索中语言使用特征研究 [J].
赖茂生 ;
屈鹏 .
现代图书情报技术, 2008, (07) :47-53
[2]   基于大规模日志分析的搜索引擎用户行为分析 [J].
余慧佳 ;
刘奕群 ;
张敏 ;
茹立云 ;
马少平 .
中文信息学报, 2007, (01) :109-114
[3]   网络日志规模分析和用户兴趣挖掘 [J].
郭岩 ;
白硕 ;
杨志峰 ;
张凯 .
计算机学报, 2005, (09) :1483-1496
[4]  
搜索引擎用户点击行为分析[J]. 王继民,彭波.情报学报. 2006 (02)
[5]  
一个中文搜索引擎的查询日志分析[J]. 李亚楠,王斌.数字图书馆论坛. 2008 (07)
[6]  
Real life, real users, and real needs: a study and analysis of user queries on the web[J] . Bernard J. Jansen,Amanda Spink,Tefko Saracevic.Information Processing and Management . 2000 (2)