浅析中文分词方法

被引:13
作者
沈静
机构
[1] 漳州职业技术学院计算机工程系
关键词
中文分词; 文本挖掘; 歧义切分;
D O I
10.13908/j.cnki.issn1673-1417.2016.03.0009
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
中文分词是中文文本挖掘和信息处理的基础环节,而中文文本挖掘首先面临的是中文的分词问题。中文分词的方法主要有基于字符串匹配的分词方法、基于统计的分词方法和基于理解的分词方法三种,第一种分词方法简单、快捷,但对词典的完备性要求很高;第二种充分利用文本信息,但完备性较差;第三种还处于理论研究阶段。本文对现有的三种中文分词方法进行了研究和对比。
引用
收藏
页码:45 / 48
页数:4
相关论文
共 5 条
[1]
基于统计的云搜索中文分词算法 [J].
曾田日 ;
王晋国 .
西北大学学报(自然科学版), 2015, 45 (04) :568-572
[2]
正向最大匹配分词算法的分析与改进 [J].
吴旭东 .
科技传播, 2011, (20) :164-165
[3]
基于延迟决策和斜率的新词识别方法 [J].
郭伟 ;
陈蓉 ;
周伟 ;
熊伟 ;
于中华 .
四川大学学报(自然科学版), 2007, (03) :517-520
[4]
中文信息处理中自动分词技术的研究与展望 [J].
刘迁 ;
贾惠波 .
计算机工程与应用 , 2006, (03) :175-177+182
[5]
书面汉语自动分词综述 [J].
梁南元 .
计算机应用与软件, 1987, (03) :44-50