学术探索
学术期刊
学术作者
新闻热点
数据分析
智能评审
基于统计和规则的未登录词识别方法研究
被引:59
作者
:
论文数:
引用数:
h-index:
机构:
周蕾
[
1
]
论文数:
引用数:
h-index:
机构:
朱巧明
[
2
]
机构
:
[1]
常熟理工学院计算机科学与工程系
[2]
苏州大学计算机科学和技术学院
来源
:
计算机工程
|
2007年
/ 08期
关键词
:
未登录词识别;
贪心算法;
二元模型;
互信息;
D O I
:
暂无
中图分类号
:
TP391.4 [模式识别与装置];
学科分类号
:
081102
[检测技术与自动化装置]
;
摘要
:
介绍了一种基于统计和规则的未登录词识别方法。该方法分为2个步骤:(1)对文本进行分词,对分词结果中的碎片进行全切分生成临时词典,并利用规则和频度信息给临时词典中的每个字串赋权值,利用贪心算法获得每个碎片的最长路径,从而提取未登录词;(2)在上一步骤的基础上,建立二元模型,并结合互信息来提取由若干个词组合而成的未登录词(组)。实验证明该方法开放测试的准确率达到81.25%,召回率达到82.38%。
引用
收藏
页码:196 / 198
页数:3
相关论文
共 7 条
[1]
基于概率统计技术和规则方法的新词发现
[J].
论文数:
引用数:
h-index:
机构:
贾自艳
;
论文数:
引用数:
h-index:
机构:
史忠植
.
计算机工程,
2004,
(20)
:19
-21+83
[2]
一种快速汉语分词算法
[J].
温滔
论文数:
0
引用数:
0
h-index:
0
机构:
苏州大学计算机科学与技术学院,苏州大学计算机科学与技术学院,苏州大学计算机科学与技术学院苏州,苏州,苏州
温滔
;
论文数:
引用数:
h-index:
机构:
朱巧明
;
论文数:
引用数:
h-index:
机构:
吕强
.
计算机工程,
2004,
(19)
:119
-120+182
[3]
基于语料库和网络的新词自动识别
[J].
刘建舟
论文数:
0
引用数:
0
h-index:
0
机构:
华中师范大学计算机科学系,华中师范大学计算机科学系,华中师范大学计算机科学系湖北武汉湖北工业大学信息工程学院,湖北武汉,湖北武汉,湖北武汉
刘建舟
;
论文数:
引用数:
h-index:
机构:
何婷婷
;
骆昌日
论文数:
0
引用数:
0
h-index:
0
机构:
华中师范大学计算机科学系,华中师范大学计算机科学系,华中师范大学计算机科学系湖北武汉湖北工业大学信息工程学院,湖北武汉,湖北武汉,湖北武汉
骆昌日
.
计算机应用,
2004,
(07)
:132
-134
[4]
基于分解与动态规划策略的汉语未登录词识别
[J].
论文数:
引用数:
h-index:
机构:
吕雅娟
;
论文数:
引用数:
h-index:
机构:
赵铁军
;
论文数:
引用数:
h-index:
机构:
杨沐昀
;
论文数:
引用数:
h-index:
机构:
于浩
;
论文数:
引用数:
h-index:
机构:
李生
.
中文信息学报,
2001,
(01)
:28
-33
[5]
自动分词中未登录词问题的一揽子解决方案
[J].
论文数:
引用数:
h-index:
机构:
陈小荷
.
语言文字应用,
1999,
(03)
[6]
串频统计和词形匹配相结合的汉语自动分词系统
[J].
论文数:
引用数:
h-index:
机构:
刘挺
;
论文数:
引用数:
h-index:
机构:
吴岩
;
论文数:
引用数:
h-index:
机构:
王开铸
.
中文信息学报,
1998,
(01)
[7]
中文姓名的自动辨识
[J].
论文数:
引用数:
h-index:
机构:
孙茂松
;
论文数:
引用数:
h-index:
机构:
黄昌宁
;
论文数:
引用数:
h-index:
机构:
高海燕
;
方捷
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机科学系,烟台大学计算机应用系
方捷
.
中文信息学报,
1995,
(02)
←
1
→
共 7 条
[1]
基于概率统计技术和规则方法的新词发现
[J].
论文数:
引用数:
h-index:
机构:
贾自艳
;
论文数:
引用数:
h-index:
机构:
史忠植
.
计算机工程,
2004,
(20)
:19
-21+83
[2]
一种快速汉语分词算法
[J].
温滔
论文数:
0
引用数:
0
h-index:
0
机构:
苏州大学计算机科学与技术学院,苏州大学计算机科学与技术学院,苏州大学计算机科学与技术学院苏州,苏州,苏州
温滔
;
论文数:
引用数:
h-index:
机构:
朱巧明
;
论文数:
引用数:
h-index:
机构:
吕强
.
计算机工程,
2004,
(19)
:119
-120+182
[3]
基于语料库和网络的新词自动识别
[J].
刘建舟
论文数:
0
引用数:
0
h-index:
0
机构:
华中师范大学计算机科学系,华中师范大学计算机科学系,华中师范大学计算机科学系湖北武汉湖北工业大学信息工程学院,湖北武汉,湖北武汉,湖北武汉
刘建舟
;
论文数:
引用数:
h-index:
机构:
何婷婷
;
骆昌日
论文数:
0
引用数:
0
h-index:
0
机构:
华中师范大学计算机科学系,华中师范大学计算机科学系,华中师范大学计算机科学系湖北武汉湖北工业大学信息工程学院,湖北武汉,湖北武汉,湖北武汉
骆昌日
.
计算机应用,
2004,
(07)
:132
-134
[4]
基于分解与动态规划策略的汉语未登录词识别
[J].
论文数:
引用数:
h-index:
机构:
吕雅娟
;
论文数:
引用数:
h-index:
机构:
赵铁军
;
论文数:
引用数:
h-index:
机构:
杨沐昀
;
论文数:
引用数:
h-index:
机构:
于浩
;
论文数:
引用数:
h-index:
机构:
李生
.
中文信息学报,
2001,
(01)
:28
-33
[5]
自动分词中未登录词问题的一揽子解决方案
[J].
论文数:
引用数:
h-index:
机构:
陈小荷
.
语言文字应用,
1999,
(03)
[6]
串频统计和词形匹配相结合的汉语自动分词系统
[J].
论文数:
引用数:
h-index:
机构:
刘挺
;
论文数:
引用数:
h-index:
机构:
吴岩
;
论文数:
引用数:
h-index:
机构:
王开铸
.
中文信息学报,
1998,
(01)
[7]
中文姓名的自动辨识
[J].
论文数:
引用数:
h-index:
机构:
孙茂松
;
论文数:
引用数:
h-index:
机构:
黄昌宁
;
论文数:
引用数:
h-index:
机构:
高海燕
;
方捷
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机科学系,烟台大学计算机应用系
方捷
.
中文信息学报,
1995,
(02)
←
1
→