Web文本挖掘中的一种中文分词算法研究及其实现

被引:7
作者
苏芳仲
林世平
机构
[1] 福州大学数学与计算机科学学院
[2] 福州大学数学与计算机科学学院 福建福州 350002
关键词
文本挖掘; 字典索引; 文档格式转化; 消歧;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
针对Web文本挖掘中的中文信息处理的问题,介绍了将超文本格式(Html格式)的文档转化为纯文本格式(Txt格式)文档的方法.利用改进的最大匹配法来实现对文档的汉语自动分词,同时,加强消除歧义方面的处理,分词精度有所提高.
引用
收藏
页码:67 / 71
页数:5
相关论文
共 5 条
  • [1] 全二分最大匹配快速分词算法
    李振星
    徐泽平
    唐卫清
    唐荣锡
    [J]. 计算机工程与应用, 2002, (11) : 106 - 109
  • [2] 基于神经网络的分词方法
    徐秉铮
    詹剑
    贺前华
    [J]. 中文信息学报, 1993, (02) : 36 - 44
  • [3] 基于规则的汉语自动分词系统
    姚天顺
    张桂平
    吴映明
    不详
    [J]. 中文信息学报 , 1990, (01) : 37 - 43
  • [4] 汉语自动分词及歧义组合结构的处理
    李国臣
    刘开瑛
    张永奎
    [J]. 中文信息学报, 1988, (03) : 27 - 33
  • [5] 自然语言理解导论 .2 姚天顺. 东北大学出版社 . 1993