一种改进的统计与后串最大匹配的中文分词算法研究

被引：7

作者：

吴涛

张毛迪

陈传波

机构：

[1] 华中科技大学软件学院

来源：

计算机工程与科学 | 2008年 / 08期

关键词：

正向最大前串匹配; 逆向最大前串匹配; 统计法; 有穷自动机;

D O I：

暂无

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

摘要：

在比较各种传统分词方法优缺点的基础上,本文提出了一种新的分词算法。它采用改进的双向Markov链统计方法对词库进行更新,再利用基于词典的有穷自动机后串最大匹配算法以及博弈树搜索算法进行分词。实验结果表明,该分词算法在分词准确性、效率以及生词辨识上取得了良好的效果。

引用

页码：79 / 82

页数：4

共 6 条

[1] 基于隐马尔科夫模型的中文分词研究 [J].

魏晓宁 .

电脑知识与技术(学术交流), 2007, (21) :885-886

[2] 中文分词及词性标注一体化模型研究 [J].

佟晓筠 ;

宋国龙 ;

刘强 ;

张俐 ;

姜伟 .

计算机科学, 2007, (09) :174-175+212

[3] 基于词频统计的中文分词的研究 [J].

费洪晓 ;

康松林 ;

朱小娟 ;

谢文彪 .

计算机工程与应用, 2005, (07) :67-68+100

[4] 汉语分词的主要技术及其应用展望 [J].

王科 ;

高常波 ;

翟雪峰 ;

罗万伯 .

通信技术, 2003, (06) :12-15

[5] 统计语言模型及汉语音字转换的一些新结果 [J].

郭进 .

中文信息学报, 1993, (01) :18-27

[6] 基于规则的汉语自动分词系统 [J].

姚天顺 ;

张桂平 ;

吴映明 .

中文信息学报, 1990, (01) :37-43

← 1 →