基于统计的云搜索中文分词算法

被引:13
作者
曾田日 [1 ]
王晋国 [2 ]
机构
[1] 深圳大学图书馆
[2] 长安大学理学院
关键词
云搜索; 搜索引擎; 中文分词算法;
D O I
10.16152/j.cnki.xdxbzr.2015-04-010
中图分类号
TP391.3 [检索机]; TP391.1 [文字信息处理];
学科分类号
080201 [机械制造及其自动化]; 120506 [数字人文];
摘要
针对当前云搜索系统中中文分词仅仅采用简单的正向匹配最大算法和逆向最大匹配算法容易产生歧义的问题,提出了采用平均最大分词算法分词,并用最小分词偏离标准差消除歧义的方法进行云搜索系统的中文分词。经过测试,该算法明显优于正向最大匹配算法和逆向最大匹配算法。
引用
收藏
页码:568 / 572
页数:5
相关论文
共 5 条
[1]
应用阿里云搜索服务构建图书馆站内搜索引擎 [J].
王爽 ;
陈俊杰 ;
肖铮 ;
黄国凡 .
现代图书情报技术, 2013, (06) :85-89
[2]
基于云计算的定向搜索监控研究 [J].
屈振新 ;
朱文昌 .
计算机工程与科学, 2013, 35 (01) :82-87
[3]
水利垂直搜索引擎的研究 [J].
周远超 ;
叶枫 ;
高依旻 ;
张雪洁 .
计算机与数字工程, 2012, 40 (10) :64-66+115
[4]
基于云计算的分布式企业搜索引擎研究 [J].
林乐然 ;
陈德龙 .
电脑知识与技术, 2009, 5 (33) :9429-9430+9434
[5]
字典与统计相结合的中文分词方法 [J].
翟凤文 ;
赫枫龄 ;
左万利 .
小型微型计算机系统, 2006, (09) :1766-1771