字典与统计相结合的中文分词方法

被引:42
作者
翟凤文
赫枫龄
左万利
机构
[1] 吉林大学软件学院
关键词
中文分词; 基于字典的分词; 基于统计的分词; 交集型分词歧义;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
提出了一种字典与统计相结合的中文分词方法,该方法首先利用基于字典的分词方法进行第一步处理,然后利用统计的方法处理第一步所产生的歧义问题和未登录词问题.本算法在基于字典的处理过程中,通过改进字典的存储结构,提高了字典匹配的速度;在基于统计的处理过程中,通过统计和规则相结合的方法提高了交集型歧义切分的准确率,并且一定条件下解决了语境中高频未登录词问题,实验结果表明,由本文算法实现的分词系统DS fenc i的分全率达99.52%,准确率达98.52%.
引用
收藏
页码:1766 / 1771
页数:6
相关论文
共 9 条
[1]   一种基于后缀数组的无词典分词方法 [J].
张长利 ;
赫枫龄 ;
左万利 .
吉林大学学报(理学版), 2004, (04) :548-553
[2]   汉语文本中交集型切分歧义的分类处理 [J].
李凯 ;
左万利 ;
吕巍 .
小型微型计算机系统, 2004, (08) :1486-1490
[3]   Web中文文本分词技术研究 [J].
马玉春 ;
宋瀚涛 .
计算机应用, 2004, (04) :134-135+155
[4]   一种中文分词词典新机制——双字哈希机制 [J].
李庆虎 ;
陈玉健 ;
孙家广 .
中文信息学报, 2003, (04) :13-18
[5]   分词中的歧义处理 [J].
谭琼 ;
史忠植 ;
不详 .
计算机工程与应用 , 2002, (11) :125-127+236
[6]   无词典高频字串快速提取和统计算法研究 [J].
韩客松 ;
王永成 ;
陈桂林 .
中文信息学报, 2001, (02) :23-30
[7]   中文搜索引擎中的中文信息处理技术 [J].
邹海山 ;
吴勇 ;
吴月珠 ;
陈阵 .
计算机应用研究, 2000, (12) :21-24
[8]   交集型歧义字段切分方法研究 [J].
闫引堂 ;
周晓强 .
情报学报, 2000, (06) :637-643
[9]   汉语自动分词词典机制的实验研究 [J].
孙茂松 ;
左正平 ;
黄昌宁 .
中文信息学报, 2000, (01) :1-6