中文搜索引擎中的分词技术研究

被引:9
作者
房志峰
机构
[1] 山东政法学院信息科学技术系
关键词
中文分词; 未登录词识别; 最短路径; 共首字歧义词概率; 窗口移动法;
D O I
暂无
中图分类号
TP391.3 [检索机];
学科分类号
摘要
分词模块是中文搜索引擎的一个重要组成部分,针对分词提出了一种最短路径与共首字歧义词概率的比较相结合的方法,首先寻找最短路径。如果最短路径不只一条,就比较共首字歧义词概率,选择概率较大的一条路径,效果非常明显。对未登录词识别提出了一种改进的移动窗口算法,在单字序列中移动窗口,并记录状态来寻找新词,能够识别大部分的未登录词。
引用
收藏
页码:2481 / 2483+2506 +2506
页数:4
相关论文
共 5 条
[1]   统计与规则结合的一种新词识别方法 [J].
聂颂 ;
何丕廉 ;
孙越恒 .
微型机与应用, 2003, (10) :58-60
[2]   基于WWW的未登录词识别研究 [J].
韩洁 ;
周勇 ;
刘少辉 ;
史忠植 .
计算机科学, 2002, (12) :155-156
[3]   基于N-最短路径方法的中文词语粗分模型 [J].
张华平 ;
刘群 .
中文信息学报, 2002, (05) :1-7
[4]  
计算语言学.[M].刘颖编著;.清华大学出版社.2002,
[5]  
中文文本自动分词和标注.[M].刘开瑛著;.商务印书馆.2000,