中文信息检索引擎中的分词与检索技术

被引:48
作者
吴栋
滕育平
机构
[1] 南开大学组合数学研究中心核心数学与组合数学教育部重点实验室
[2] 南开大学组合数学研究中心核心数学与组合数学教育部重点实验室 天津
[3] 天津
关键词
信息检索; 搜索引擎; 分词技术; 检索技术;
D O I
暂无
中图分类号
TP391.3 [检索机];
学科分类号
081203 ; 0835 ;
摘要
文中论述了在开发中文信息检索系统中所涉及到的两项关键技术 ,即中文分词技术和检索技术。针对中文分词技术 ,介绍了一种改进的正向最大匹配切分算法 ,以及为消除歧义引入的校正策略 ,并在此基础上结合统计方法处理未登录词。针对检索技术 ,综述了几种最常用的检索模型的原理 ,并对每种模型的优缺点进行了简要分析。最后对给出的分词算法进行了测试 ,测试结果表明该分词算法准确度和效率能够满足实用的要求
引用
收藏
页码:128 / 131
页数:4
相关论文
共 4 条
[1]   开发中文搜索引擎汉语处理的关键技术 [J].
严威 ;
赵政 .
计算机工程, 1999, (06) :5-6+8
[2]  
机器学习.[M].(美)TomM.Mitchell著;曾华军;张银奎等译;.机械工业出版社.2003,
[3]  
自然语言理解.[M].姚天顺等编著;.清华大学出版社.2002,
[4]  
人工智能与情报检索.[M].贾同兴编著;.北京图书馆出版社.1997,