搜索引擎用短语词典建设

被引:6
作者
吕学强
苏祺
孙斌
俞士汶
机构
[1] 北京100101
[2] 北京100871
[3] 北京大学计算语言学研究所 北京100871
[4] 北京信息科技大学中文信息处理研究中心
[5] 北京大学计算语言学研究所
关键词
搜索引擎; 语言资源; 短语词典; 中文分词; 标注;
D O I
10.16511/j.cnki.qhdxxb.2005.s1.035
中图分类号
TP391.3 [检索机];
学科分类号
081203 ; 0835 ;
摘要
百度搜索引擎分词系统中的原短语库是由统计得出,含有大量噪音。委托北京大学计算语言学研究所进行了手工整理标注。为此设计了加工规范,对短语进行了严格的定义,制定了加工操作手册,并开展了手工工程,通过严格的控制保证标注的一致性。共整理短语119 984条,噪音短语比例约占7%。当前该短语词典已应用于百度搜索引擎中,对提高检索效果和减少索引空间都起到一定作用。
引用
收藏
页码:1892 / 1895
页数:4
相关论文
共 1 条
[1]  
现代汉语语法信息词典详解[M]. - 清华大学出版社 , 俞士汶等著, 2003