有限状态机在中文文本分词中的应用

被引:1
作者
火善栋
机构
[1] 重庆三峡学院
关键词
中文信息处理; 有限状态机; 汉语分词;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
提出并实现一种有限状态机算法,该方法结合二分查找树算法将整个词典构造成一个有限状态机,从而使词典中的每个不同的汉字以不同弧权值的形式存在于有限状态机中。当要判断某个字符串是不是词时,只要从这个有限状态机的第一个状态结点依次进行查找即可。实验显示,通过这个有限状态机词典可以实现对字符串的快速查找。
引用
收藏
页码:30 / 33
页数:4
相关论文
共 5 条
[1]   汉语自动分词词典机制的实验研究 [J].
孙茂松 ;
左正平 ;
黄昌宁 .
中文信息学报, 2000, (01) :1-6
[2]   串频统计和词形匹配相结合的汉语自动分词系统 [J].
刘挺 ;
吴岩 ;
王开铸 .
中文信息学报, 1998, (01) :18-26
[3]   利用汉字二元语法关系解决汉语自动分词中的交集型歧义 [J].
孙茂松 ;
黄昌宁 ;
邹嘉彦 ;
陆方 ;
沈达阳 .
计算机研究与发展 , 1997, (05) :14-21
[4]   汉语自动分词研究中的苦干理论问题 [J].
孙茂松,邹嘉彦 .
语言文字应用, 1995, (04) :40-46
[5]   书面汉语自动分词系统—CDWS [J].
梁南元 .
中文信息学报, 1987, (02) :44-52