共 11 条
一种新词检测方法研究
被引:6
作者:

论文数: 引用数:
h-index:
机构:

论文数: 引用数:
h-index:
机构:

论文数: 引用数:
h-index:
机构:
机构:
[1] 重庆大学计算机学院
来源:
关键词:
新词;
互信息;
信息熵;
词频;
垃圾串;
D O I:
暂无
中图分类号:
TP391.1 [文字信息处理];
学科分类号:
摘要:
汉语自动分词是进行中文信息处理的基础。目前,困扰汉语自动分词的一个主要难题就是新词自动识别,尤其是非专名新词的自动识别。同时,新词自动识别对于汉语词典的编纂也有着极为重要的意义。提出一种新的未登录词识别方法,该方法混合了互信息、信息熵及词频等3个评价指标评价新词,并在此基础上添加了垃圾串过滤机制,大幅度提高了新词识别准确率和召回率。
引用
收藏
页码:1 / 5+23
+23
页数:6
相关论文
共 11 条
[1]
基于外部排序的字串左右熵快速计算方法
[J].
张海军
;
彭成
;
栾静
.
计算机工程与应用,
2011, 47 (19)
:18-20

张海军
论文数: 0 引用数: 0
h-index: 0
机构:
新疆师范大学计算机科学技术学院
中国科技大学计算机科学技术学院 新疆师范大学计算机科学技术学院

论文数: 引用数:
h-index:
机构:

论文数: 引用数:
h-index:
机构:
[2]
基于统计信息的未登录词的扩展识别方法
[J].
韩艳
;
林煜熙
;
姚建民
.
中文信息学报,
2009, 23 (03)
:24-30+50

韩艳
论文数: 0 引用数: 0
h-index: 0
机构: 苏州大学江苏省计算机信息处理重点实验室

林煜熙
论文数: 0 引用数: 0
h-index: 0
机构: 苏州大学江苏省计算机信息处理重点实验室

姚建民
论文数: 0 引用数: 0
h-index: 0
机构: 苏州大学江苏省计算机信息处理重点实验室
[3]
基于大规模语料库的新词检测
[J].
崔世起
;
刘群
;
孟遥
;
于浩
;
西野文人
.
计算机研究与发展 ,
2006, (05)
:927-932

崔世起
论文数: 0 引用数: 0
h-index: 0
机构:
不详 不详

刘群
论文数: 0 引用数: 0
h-index: 0
机构:
不详 不详

论文数: 引用数:
h-index:
机构:

论文数: 引用数:
h-index:
机构:

论文数: 引用数:
h-index:
机构:
[4]
基于语料库和网络的新词自动识别
[J].
刘建舟
;
何婷婷
;
骆昌日
.
计算机应用,
2004, (07)
:132-134

刘建舟
论文数: 0 引用数: 0
h-index: 0
机构: 华中师范大学计算机科学系

何婷婷
论文数: 0 引用数: 0
h-index: 0
机构: 华中师范大学计算机科学系

骆昌日
论文数: 0 引用数: 0
h-index: 0
机构: 华中师范大学计算机科学系
[5]
基于角色标注的中国人名自动识别研究
[J].
张华平
;
刘群
.
计算机学报,
2004, (01)
:85-91

张华平
论文数: 0 引用数: 0
h-index: 0
机构: 中国科学院计算技术研究所

论文数: 引用数:
h-index:
机构:
[6]
句子相似模型和最相似句子查找算法
[J].
吕学强
;
任飞亮
;
黄志丹
;
姚天顺
;
不详
.
东北大学学报 ,
2003, (06)
:531-534

吕学强
论文数: 0 引用数: 0
h-index: 0
机构: 东北大学信息科学与工程学院

任飞亮
论文数: 0 引用数: 0
h-index: 0
机构: 东北大学信息科学与工程学院

论文数: 引用数:
h-index:
机构:

姚天顺
论文数: 0 引用数: 0
h-index: 0
机构: 东北大学信息科学与工程学院

不详
论文数: 0 引用数: 0
h-index: 0
机构: 东北大学信息科学与工程学院
[7]
一种新的基于统计的词典扩展方法
[J].
周正宇
;
李宗葛
.
中文信息学报,
2001, (05)
:46-51

论文数: 引用数:
h-index:
机构:

论文数: 引用数:
h-index:
机构:
[8]
一个汉语词义自动标注系统的设计与实现
[J].
葛瑞芳
;
李涓子
.
计算机工程与应用,
2001, (17)
:170-173

葛瑞芳
论文数: 0 引用数: 0
h-index: 0
机构: 清华大学计算机科学与技术系!北京

李涓子
论文数: 0 引用数: 0
h-index: 0
机构: 清华大学计算机科学与技术系!北京
[9]
自然语言处理中词语上下文有效范围的定量描述
[J].
鲁松
;
白硕
.
计算机学报,
2001, (07)
:742-747

论文数: 引用数:
h-index:
机构:

白硕
论文数: 0 引用数: 0
h-index: 0
机构: 中国科学院计算技术研究所!北京
[10]
Chinese Word Boundary Ambiguity and Unknown Word Resolution Using Unsupervised Methods
[J].
傅国宏
.
High Technology Letters,
2000, (02)
:29-39

傅国宏
论文数: 0 引用数: 0
h-index: 0