中文分词切分技术研究

被引:16
作者
徐飞
孙劲光
机构
[1] 辽宁工程技术大学电子与信息工程学院
关键词
中文分词; 最短路径; 叠加运算;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
本文分析了现有的基于词典的分词算法,在比较各种算法优缺点的基础上提出了将正向匹配算法与逆向匹配算法所得到的结果集进行叠加,生成粗分结果集的新观点,再对生成的粗分结果集构造非负权有向图,最后应用最短路径算法求解有向图。通过Nutch实验验证,该算法较Nutch原始搜索系统提高了其汉语切分的准确性以及切分速度,同时部分解决了交集型歧义切分问题。
引用
收藏
页码:126 / 128
页数:3
相关论文
共 7 条
  • [1] 中文信息处理技术教程.[M].朱巧明[等]编著;.清华大学出版社.2005,
  • [2] 自然语言理解.[M].(美)JamesAllen著;刘群等译;.电子工业出版社.2005,
  • [3] 数据结构.[M].严蔚敏;吴伟民编著;.清华大学出版社.1997,
  • [4] 基于Nutch的搜索引擎的研究
    胡涛
    路红英
    [J]. 计算机时代, 2007, (01) : 57 - 59
  • [5] 国内中文分词技术研究新进展
    冯书晓
    徐新
    杨春梅
    [J]. 情报杂志, 2002, (11) : 29 - 30
  • [6] 基于N-最短路径方法的中文词语粗分模型
    张华平
    刘群
    [J]. 中文信息学报, 2002, (05) : 1 - 7
  • [7] 汉语分词有向图的快速生成算法.[J].李大农;董慧;.情报学报.2004, 01