学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
搜索引擎用短语词典建设
被引:6
作者
:
论文数:
引用数:
h-index:
机构:
吕学强
苏祺
论文数:
0
引用数:
0
h-index:
0
机构:
北京100101
苏祺
孙斌
论文数:
0
引用数:
0
h-index:
0
机构:
北京100101
孙斌
俞士汶
论文数:
0
引用数:
0
h-index:
0
机构:
北京100101
俞士汶
机构
:
[1]
北京100101
[2]
北京100871
[3]
北京大学计算语言学研究所 北京100871
[4]
北京信息科技大学中文信息处理研究中心
[5]
北京大学计算语言学研究所
来源
:
清华大学学报(自然科学版)
|
2005年
/ S1期
关键词
:
搜索引擎;
语言资源;
短语词典;
中文分词;
标注;
D O I
:
10.16511/j.cnki.qhdxxb.2005.s1.035
中图分类号
:
TP391.3 [检索机];
学科分类号
:
081203 ;
0835 ;
摘要
:
百度搜索引擎分词系统中的原短语库是由统计得出,含有大量噪音。委托北京大学计算语言学研究所进行了手工整理标注。为此设计了加工规范,对短语进行了严格的定义,制定了加工操作手册,并开展了手工工程,通过严格的控制保证标注的一致性。共整理短语119 984条,噪音短语比例约占7%。当前该短语词典已应用于百度搜索引擎中,对提高检索效果和减少索引空间都起到一定作用。
引用
收藏
页码:1892 / 1895
页数:4
相关论文
共 1 条
[1]
现代汉语语法信息词典详解[M]. - 清华大学出版社 , 俞士汶等著, 2003
←
1
→
共 1 条
[1]
现代汉语语法信息词典详解[M]. - 清华大学出版社 , 俞士汶等著, 2003
←
1
→