开源中文分词器的比较研究

被引:0
作者
黄翼彪
机构
[1] 郑州大学
关键词
分词器; 中文分词; 语料库; 分词速度; 未登录词识别;
D O I
暂无
年度学位
2013
学位类型
硕士
导师
摘要
中文分词是中文信息处理的基础,随着人们对中文分词技术的不断深入研究,越来越多的中文分词器诞生了,开源为大家的学习和交流带了很多便利,然而问题也随之而来了,当我们有具体的应用需求时,面对这么多免费的开源分词器,究竟该如何选择呢?正是为了解决这个问题,本文从26个开源中文分词器中筛选了8个比较有代表性的作为研究对象,并针对不同的性能指标设计测试方案,进行比较测试,最终根据测试结果对选定的分词器进行比较评价。 分词准确率、分词速度、未登录词的识别和资源开销等都是衡量一个分词器优劣的评测标准。为了对这些标准进行测试,论文设计了5个测试。它们分别是分词效果测试、分词准确率测试、人名识别和地名识别测试、分词速度测试和资源开销测试。最后,通过对试验结果的对比分析,对选定的研究对象进行评价,为人们的应用选择提供参考。
引用
收藏
页数:69
共 69 条
[1]
中文信息处理中若干关键技术的研究 [D]. 
王建会 .
复旦大学,
2004
[2]
基于分词性能的汉语语料库比较研究.[A].张洁;孟遥;于浩;.中国中文信息学会二十五周年学术会议.2006,
[3]
中文分词研究 [J].
张黎 ;
徐蔚然 .
软件, 2012, 33 (12) :103-108
[4]
基于Lucene的中文分词模块的设计和实现 [J].
罗宁 ;
徐俊刚 ;
郭洪韬 .
电子技术, 2012, 39 (09) :54-56
[5]
一种组合型中文分词方法 [J].
郑晓刚 ;
韩立新 ;
白书奎 ;
曾晓勤 .
计算机应用与软件, 2012, 29 (07) :26-28+39
[6]
基于云计算的中文分词研究 [J].
张妍 ;
许云峰 ;
张立全 .
河北科技大学学报, 2012, (03) :266-269
[7]
中文分词及其在信息检索中的影响研究综述.[J].雷二毛;.华中师范大学研究生学报.2012, 02
[8]
基于Lucene的中文分词技术研究 [J].
汤国锋 ;
徐振伟 ;
张华熊 .
电脑编程技巧与维护, 2012, (10) :4-5+12
[9]
基于“固结词串”实例的中文分词研究 [J].
修驰 ;
宋柔 .
中文信息学报, 2012, (03) :59-64
[10]
实现Lucene接口的中文分词器的比较研究.[J].黄翼彪;.科技信息.2012, 12