中文分词算法在搜索引擎应用中的研究

被引:21
作者
欧振猛
余顺争
不详
机构
[1] 中山大学电子系!广州
[2] 不详
[3] 不详
关键词
搜索引擎; 中文自动分词; 匹配; 马尔可夫过程;
D O I
暂无
中图分类号
TP391.3 [检索机];
学科分类号
摘要
在Internet高速发展的信息时代,搜索引擎是人们获得有效信息的强有力手段之一。中文搜索引擎的重点在于中文关键信息提取,其中的难点就是中文自动分词。该文重点讨论中文自动分词算法。算法采用基于自动建立词库的最佳匹配方法来进行中文分词,同时采用基于改进型马尔可夫N元语言模型的统计处理方法来处理分词中出现的歧义问题,从而提高精度。
引用
收藏
页码:80 / 82+84 +84
页数:4
相关论文
共 3 条
  • [1] 汉语统计语言模型的N值分析
    张树武
    黄泰翼
    [J]. 中文信息学报, 1998, (01) : 36 - 42
  • [2] 自然语言的计算机处理[M]. 上海外语教育出版社 , 冯志伟著, 1996
  • [3] 信息论基础[M]. 电子工业出版社 , 傅祖芸编, 1989