基于计算机自动分词的研究

被引:6
作者
李瑞芳
孙健
李娜
机构
[1] 沈阳化工学院计算机科学与技术学院
关键词
中文分词; 双向匹配; 正向匹配; 逆向匹配; Java;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
时代发展对中文分词的要求越来越高,在原有机械分词方法中双向匹配理论的基础上,对其进行改进,以提高分词的速度和准确率.在原方法上分别为正向匹配和逆向匹配增加了一个词头表,利用Java语言中Map和Set具有Hash结构的特性,进行程序设计.设计以《红楼梦》为例,对改进的方法进行测试,结果证明改进的方法可行,与原有方法比较,在速度上和准确率上都有较大的提高.
引用
收藏
页码:255 / 259
页数:5
相关论文
共 5 条
[1]
基于有向图的双向匹配分词算法及实现 [J].
陈耀东 ;
王挺 .
计算机应用, 2005, (06) :1442-1444
[2]
交集型歧义字段切分方法研究 [J].
闫引堂 ;
周晓强 .
情报学报, 2000, (06) :637-643
[3]
高频最大交集型歧义切分字段在汉语自动分词中的作用 [J].
孙茂松 ;
左正平 ;
邹嘉彦 .
中文信息学报, 1999, (01)
[4]
JDK 1.5类库大全.[M].陈烨;张蓓等编著;.清华大学出版社.2005,
[5]
Java编程思想.[M].(美)[B.埃克尔]BruceEckel著;京京工作室译;.机械工业出版社.1999,