一种基于信息熵的中文高频词抽取算法

被引：22

作者：

任禾

曾隽芳

机构：

[1] 中国科学院自动化研究所综合信息中心

来源：

中文信息学报 | 2006年 / 05期

关键词：

人工智能; 自然语言处理; 分词; 中文抽词; 信息熵; 高频词;

D O I：

暂无

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

摘要：

为扩展分词词典,提高分词的准确率,本文提出了一种基于信息熵的中文高频词抽取算法,其结果可以用来识别未登录词并扩充现有词典。我们首先对文本进行预处理,将文本中的噪音字和非中文字符转化为分隔符,这样文本就可以被视为用分隔符分开的中文字符串的集合,然后统计这些中文字符串的所有子串的相关频次信息,最后根据这些频次信息计算每一个子串的信息熵来判断其是否为词。实验证明,该算法不仅简单易行,而且可以比较有效地从文本中抽取高频词,可接受率可达到91.68%。

引用

页码：40 / 43+90 +90

页数：5

共 8 条

[1] 面向Internet的中文新词语检测
邹纲
刘洋
刘群
孟遥
于浩
西野文人
亢世勇
[J]. 中文信息学报, 2004, (06) : 1 - 9
[2] 基于字串内部结合紧密度的汉语自动抽词实验研究
罗盛芬
孙茂松
[J]. 中文信息学报, 2003, (03) : 9 - 14
[3] 基于WWW的未登录词识别研究
韩洁
周勇
刘少辉
史忠植
[J]. 计算机科学, 2002, (12) : 155 - 156
[4] 基于构词法的网络新词自动识别初探
郑家恒
李文花
[J]. 山西大学学报(自然科学版), 2002, (02) : 115 - 119
[5] 一种中文文档的非受限无词典抽词方法
金翔宇
孙正兴
张福炎
[J]. 中文信息学报, 2001, (06) : 33 - 39
[6] 无词典高频字串快速提取和统计算法研究
韩客松
王永成
陈桂林
[J]. 中文信息学报, 2001, (02) : 23 - 30
[7] 现代汉语频率词典[M]. 北京语言学院出版社 , 北京语言学院语言教学研究所编, 1986
[8] 实用现代汉语语法[M]. 外语教学与研究出版社 , 刘月华, 1983

← 1 →