一种基于信息熵的中文高频词抽取算法

被引:22
作者
任禾
曾隽芳
机构
[1] 中国科学院自动化研究所综合信息中心
关键词
人工智能; 自然语言处理; 分词; 中文抽词; 信息熵; 高频词;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
为扩展分词词典,提高分词的准确率,本文提出了一种基于信息熵的中文高频词抽取算法,其结果可以用来识别未登录词并扩充现有词典。我们首先对文本进行预处理,将文本中的噪音字和非中文字符转化为分隔符,这样文本就可以被视为用分隔符分开的中文字符串的集合,然后统计这些中文字符串的所有子串的相关频次信息,最后根据这些频次信息计算每一个子串的信息熵来判断其是否为词。实验证明,该算法不仅简单易行,而且可以比较有效地从文本中抽取高频词,可接受率可达到91.68%。
引用
收藏
页码:40 / 43+90 +90
页数:5
相关论文
共 8 条
  • [1] 面向Internet的中文新词语检测
    邹纲
    刘洋
    刘群
    孟遥
    于浩
    西野文人
    亢世勇
    [J]. 中文信息学报, 2004, (06) : 1 - 9
  • [2] 基于字串内部结合紧密度的汉语自动抽词实验研究
    罗盛芬
    孙茂松
    [J]. 中文信息学报, 2003, (03) : 9 - 14
  • [3] 基于WWW的未登录词识别研究
    韩洁
    周勇
    刘少辉
    史忠植
    [J]. 计算机科学, 2002, (12) : 155 - 156
  • [4] 基于构词法的网络新词自动识别初探
    郑家恒
    李文花
    [J]. 山西大学学报(自然科学版), 2002, (02) : 115 - 119
  • [5] 一种中文文档的非受限无词典抽词方法
    金翔宇
    孙正兴
    张福炎
    [J]. 中文信息学报, 2001, (06) : 33 - 39
  • [6] 无词典高频字串快速提取和统计算法研究
    韩客松
    王永成
    陈桂林
    [J]. 中文信息学报, 2001, (02) : 23 - 30
  • [7] 现代汉语频率词典[M]. 北京语言学院出版社 , 北京语言学院语言教学研究所编, 1986
  • [8] 实用现代汉语语法[M]. 外语教学与研究出版社 , 刘月华, 1983