学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
一种基于信息熵的中文高频词抽取算法
被引:22
作者
:
论文数:
引用数:
h-index:
机构:
任禾
论文数:
引用数:
h-index:
机构:
曾隽芳
机构
:
[1]
中国科学院自动化研究所综合信息中心
来源
:
中文信息学报
|
2006年
/ 05期
关键词
:
人工智能;
自然语言处理;
分词;
中文抽词;
信息熵;
高频词;
D O I
:
暂无
中图分类号
:
TP391.1 [文字信息处理];
学科分类号
:
摘要
:
为扩展分词词典,提高分词的准确率,本文提出了一种基于信息熵的中文高频词抽取算法,其结果可以用来识别未登录词并扩充现有词典。我们首先对文本进行预处理,将文本中的噪音字和非中文字符转化为分隔符,这样文本就可以被视为用分隔符分开的中文字符串的集合,然后统计这些中文字符串的所有子串的相关频次信息,最后根据这些频次信息计算每一个子串的信息熵来判断其是否为词。实验证明,该算法不仅简单易行,而且可以比较有效地从文本中抽取高频词,可接受率可达到91.68%。
引用
收藏
页码:40 / 43+90 +90
页数:5
相关论文
共 8 条
[1]
面向Internet的中文新词语检测
邹纲
论文数:
0
引用数:
0
h-index:
0
机构:
中科院计算技术研究所数字化实验室
邹纲
论文数:
引用数:
h-index:
机构:
刘洋
论文数:
引用数:
h-index:
机构:
刘群
孟遥
论文数:
0
引用数:
0
h-index:
0
机构:
中科院计算技术研究所数字化实验室
孟遥
于浩
论文数:
0
引用数:
0
h-index:
0
机构:
中科院计算技术研究所数字化实验室
于浩
西野文人
论文数:
0
引用数:
0
h-index:
0
机构:
中科院计算技术研究所数字化实验室
西野文人
亢世勇
论文数:
0
引用数:
0
h-index:
0
机构:
中科院计算技术研究所数字化实验室
亢世勇
[J].
中文信息学报,
2004,
(06)
: 1
-
9
[2]
基于字串内部结合紧密度的汉语自动抽词实验研究
罗盛芬
论文数:
0
引用数:
0
h-index:
0
机构:
智能技术与系统国家重点实验室清华大学计算机科学与技术系
罗盛芬
论文数:
引用数:
h-index:
机构:
孙茂松
[J].
中文信息学报,
2003,
(03)
: 9
-
14
[3]
基于WWW的未登录词识别研究
韩洁
论文数:
0
引用数:
0
h-index:
0
机构:
中国科技大学研究生院
韩洁
周勇
论文数:
0
引用数:
0
h-index:
0
机构:
中国科技大学研究生院
周勇
刘少辉
论文数:
0
引用数:
0
h-index:
0
机构:
中国科技大学研究生院
刘少辉
史忠植
论文数:
0
引用数:
0
h-index:
0
机构:
中国科技大学研究生院
史忠植
[J].
计算机科学,
2002,
(12)
: 155
-
156
[4]
基于构词法的网络新词自动识别初探
郑家恒
论文数:
0
引用数:
0
h-index:
0
机构:
山西大学计算机科学系
郑家恒
李文花
论文数:
0
引用数:
0
h-index:
0
机构:
山西大学计算机科学系
李文花
[J].
山西大学学报(自然科学版),
2002,
(02)
: 115
-
119
[5]
一种中文文档的非受限无词典抽词方法
金翔宇
论文数:
0
引用数:
0
h-index:
0
机构:
南京大学软件新技术国家重点实验室
金翔宇
孙正兴
论文数:
0
引用数:
0
h-index:
0
机构:
南京大学软件新技术国家重点实验室
孙正兴
张福炎
论文数:
0
引用数:
0
h-index:
0
机构:
南京大学软件新技术国家重点实验室
张福炎
[J].
中文信息学报,
2001,
(06)
: 33
-
39
[6]
无词典高频字串快速提取和统计算法研究
论文数:
引用数:
h-index:
机构:
韩客松
王永成
论文数:
0
引用数:
0
h-index:
0
机构:
上海交通大学电子信息学院!上海
王永成
陈桂林
论文数:
0
引用数:
0
h-index:
0
机构:
上海交通大学电子信息学院!上海
陈桂林
[J].
中文信息学报,
2001,
(02)
: 23
-
30
[7]
现代汉语频率词典[M]. 北京语言学院出版社 , 北京语言学院语言教学研究所编, 1986
[8]
实用现代汉语语法[M]. 外语教学与研究出版社 , 刘月华, 1983
←
1
→
共 8 条
[1]
面向Internet的中文新词语检测
邹纲
论文数:
0
引用数:
0
h-index:
0
机构:
中科院计算技术研究所数字化实验室
邹纲
论文数:
引用数:
h-index:
机构:
刘洋
论文数:
引用数:
h-index:
机构:
刘群
孟遥
论文数:
0
引用数:
0
h-index:
0
机构:
中科院计算技术研究所数字化实验室
孟遥
于浩
论文数:
0
引用数:
0
h-index:
0
机构:
中科院计算技术研究所数字化实验室
于浩
西野文人
论文数:
0
引用数:
0
h-index:
0
机构:
中科院计算技术研究所数字化实验室
西野文人
亢世勇
论文数:
0
引用数:
0
h-index:
0
机构:
中科院计算技术研究所数字化实验室
亢世勇
[J].
中文信息学报,
2004,
(06)
: 1
-
9
[2]
基于字串内部结合紧密度的汉语自动抽词实验研究
罗盛芬
论文数:
0
引用数:
0
h-index:
0
机构:
智能技术与系统国家重点实验室清华大学计算机科学与技术系
罗盛芬
论文数:
引用数:
h-index:
机构:
孙茂松
[J].
中文信息学报,
2003,
(03)
: 9
-
14
[3]
基于WWW的未登录词识别研究
韩洁
论文数:
0
引用数:
0
h-index:
0
机构:
中国科技大学研究生院
韩洁
周勇
论文数:
0
引用数:
0
h-index:
0
机构:
中国科技大学研究生院
周勇
刘少辉
论文数:
0
引用数:
0
h-index:
0
机构:
中国科技大学研究生院
刘少辉
史忠植
论文数:
0
引用数:
0
h-index:
0
机构:
中国科技大学研究生院
史忠植
[J].
计算机科学,
2002,
(12)
: 155
-
156
[4]
基于构词法的网络新词自动识别初探
郑家恒
论文数:
0
引用数:
0
h-index:
0
机构:
山西大学计算机科学系
郑家恒
李文花
论文数:
0
引用数:
0
h-index:
0
机构:
山西大学计算机科学系
李文花
[J].
山西大学学报(自然科学版),
2002,
(02)
: 115
-
119
[5]
一种中文文档的非受限无词典抽词方法
金翔宇
论文数:
0
引用数:
0
h-index:
0
机构:
南京大学软件新技术国家重点实验室
金翔宇
孙正兴
论文数:
0
引用数:
0
h-index:
0
机构:
南京大学软件新技术国家重点实验室
孙正兴
张福炎
论文数:
0
引用数:
0
h-index:
0
机构:
南京大学软件新技术国家重点实验室
张福炎
[J].
中文信息学报,
2001,
(06)
: 33
-
39
[6]
无词典高频字串快速提取和统计算法研究
论文数:
引用数:
h-index:
机构:
韩客松
王永成
论文数:
0
引用数:
0
h-index:
0
机构:
上海交通大学电子信息学院!上海
王永成
陈桂林
论文数:
0
引用数:
0
h-index:
0
机构:
上海交通大学电子信息学院!上海
陈桂林
[J].
中文信息学报,
2001,
(02)
: 23
-
30
[7]
现代汉语频率词典[M]. 北京语言学院出版社 , 北京语言学院语言教学研究所编, 1986
[8]
实用现代汉语语法[M]. 外语教学与研究出版社 , 刘月华, 1983
←
1
→