学术探索
学术期刊
学术作者
新闻热点
数据分析
智能评审
基于优化最大匹配与统计结合的汉语分词方法
被引:36
作者
:
论文数:
引用数:
h-index:
机构:
刘春辉
论文数:
引用数:
h-index:
机构:
金顺福
论文数:
引用数:
h-index:
机构:
刘国华
李颖
论文数:
0
引用数:
0
h-index:
0
机构:
燕山大学信息科学与工程学院
李颖
机构
:
[1]
燕山大学信息科学与工程学院
来源
:
燕山大学学报
|
2009年
/ 33卷
/ 02期
关键词
:
中文信息处理;
词典;
分词;
优化最大匹配方法;
D O I
:
暂无
中图分类号
:
TP391.1 [文字信息处理];
学科分类号
:
120506
[数字人文]
;
摘要
:
汉语自动分词是中文信息处理的前提,如何提高分词效率是中文信息处理技术面临的一个主要问题。基于词典和基于统计的分词方法是现有分词技术的主要方法,但是前者无法处理歧义字段,后者需要大量的词频计算耗费时间。本文提出优化最大匹配与统计结合的分词方法,首先提出优化最大匹配算法,在此基础上提出了规则判断与信息量统计两种消歧策略。然后,给出了优化最大匹配与统计结合的分词算法,提高了分词的效率。最后,基于分词算法实现中文分词系统,并通过实验对算法进行了分析和验证。
引用
收藏
页码:124 / 129
页数:6
相关论文
共 15 条
[1]
一种改进的高效分词词典机制
[J].
王东
论文数:
0
引用数:
0
h-index:
0
机构:
贵州大学计算机科学与技术学院
王东
;
论文数:
引用数:
h-index:
机构:
陈笑蓉
.
贵州大学学报(自然科学版),
2007,
(04)
:380
-384+389
[2]
一种有效解决汉语歧义切分的方法
[J].
朱鉴
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院合肥智能机械研究所
朱鉴
;
张建
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院合肥智能机械研究所
张建
;
李淼
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院合肥智能机械研究所
李淼
.
计算机工程与应用,
2007,
(11)
:175
-177
[3]
字典与统计相结合的中文分词方法
[J].
翟凤文
论文数:
0
引用数:
0
h-index:
0
机构:
吉林大学软件学院
翟凤文
;
赫枫龄
论文数:
0
引用数:
0
h-index:
0
机构:
吉林大学软件学院
赫枫龄
;
论文数:
引用数:
h-index:
机构:
左万利
.
小型微型计算机系统,
2006,
(09)
:1766
-1771
[4]
一种基于多元信息库的自适应汉语歧义切分方法
[J].
论文数:
引用数:
h-index:
机构:
朱巧明
;
温滔
论文数:
0
引用数:
0
h-index:
0
机构:
苏州大学计算机科学与技术学院
温滔
;
李培蜂
论文数:
0
引用数:
0
h-index:
0
机构:
苏州大学计算机科学与技术学院
李培蜂
;
论文数:
引用数:
h-index:
机构:
钱培德
.
小型微型计算机系统,
2006,
(08)
:1597
-1600
[5]
基于二字词位图表的汉语自动分词词典机制
[J].
论文数:
引用数:
h-index:
机构:
蒋斌
;
论文数:
引用数:
h-index:
机构:
杨超
;
论文数:
引用数:
h-index:
机构:
赵欢
.
湖南大学学报(自然科学版),
2006,
(01)
:121
-123
[6]
一种基于提取上下文信息的分词算法
[J].
论文数:
引用数:
h-index:
机构:
曾华琳
;
论文数:
引用数:
h-index:
机构:
李堂秋
;
论文数:
引用数:
h-index:
机构:
史晓东
.
计算机应用,
2005,
(09)
:2025
-2027
[7]
汉语文本中交集型切分歧义的分类处理
[J].
李凯
论文数:
0
引用数:
0
h-index:
0
机构:
吉林大学计算机科学与技术学院,吉林大学计算机科学与技术学院,吉林大学计算机科学与技术学院吉林长春,吉林长春,吉林长春
李凯
;
论文数:
引用数:
h-index:
机构:
左万利
;
论文数:
引用数:
h-index:
机构:
吕巍
.
小型微型计算机系统,
2004,
(08)
:1486
-1490
[8]
基于上下文相关的最大概率汉语自动分词算法
[J].
金瑜
论文数:
0
引用数:
0
h-index:
0
机构:
合肥工业大学理学院,中国科学技术大学近代物理系,合肥工业大学理学院合肥,合肥,合肥
金瑜
;
陆启明
论文数:
0
引用数:
0
h-index:
0
机构:
合肥工业大学理学院,中国科学技术大学近代物理系,合肥工业大学理学院合肥,合肥,合肥
陆启明
;
论文数:
引用数:
h-index:
机构:
高峰
.
计算机工程,
2004,
(16)
:146
-148
[9]
Web中文文本分词技术研究
[J].
马玉春
论文数:
0
引用数:
0
h-index:
0
机构:
北京理工大学计算机系,北京理工大学计算机系北京,北京
马玉春
;
论文数:
引用数:
h-index:
机构:
宋瀚涛
.
计算机应用,
2004,
(04)
:134
-135+155
[10]
利用覆盖歧义检测法和统计语言模型进行汉语自动分词
[J].
论文数:
引用数:
h-index:
机构:
王显芳
;
论文数:
引用数:
h-index:
机构:
杜利民
.
电子与信息学报,
2003,
(09)
:1168
-1173
←
1
2
→
共 15 条
[1]
一种改进的高效分词词典机制
[J].
王东
论文数:
0
引用数:
0
h-index:
0
机构:
贵州大学计算机科学与技术学院
王东
;
论文数:
引用数:
h-index:
机构:
陈笑蓉
.
贵州大学学报(自然科学版),
2007,
(04)
:380
-384+389
[2]
一种有效解决汉语歧义切分的方法
[J].
朱鉴
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院合肥智能机械研究所
朱鉴
;
张建
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院合肥智能机械研究所
张建
;
李淼
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院合肥智能机械研究所
李淼
.
计算机工程与应用,
2007,
(11)
:175
-177
[3]
字典与统计相结合的中文分词方法
[J].
翟凤文
论文数:
0
引用数:
0
h-index:
0
机构:
吉林大学软件学院
翟凤文
;
赫枫龄
论文数:
0
引用数:
0
h-index:
0
机构:
吉林大学软件学院
赫枫龄
;
论文数:
引用数:
h-index:
机构:
左万利
.
小型微型计算机系统,
2006,
(09)
:1766
-1771
[4]
一种基于多元信息库的自适应汉语歧义切分方法
[J].
论文数:
引用数:
h-index:
机构:
朱巧明
;
温滔
论文数:
0
引用数:
0
h-index:
0
机构:
苏州大学计算机科学与技术学院
温滔
;
李培蜂
论文数:
0
引用数:
0
h-index:
0
机构:
苏州大学计算机科学与技术学院
李培蜂
;
论文数:
引用数:
h-index:
机构:
钱培德
.
小型微型计算机系统,
2006,
(08)
:1597
-1600
[5]
基于二字词位图表的汉语自动分词词典机制
[J].
论文数:
引用数:
h-index:
机构:
蒋斌
;
论文数:
引用数:
h-index:
机构:
杨超
;
论文数:
引用数:
h-index:
机构:
赵欢
.
湖南大学学报(自然科学版),
2006,
(01)
:121
-123
[6]
一种基于提取上下文信息的分词算法
[J].
论文数:
引用数:
h-index:
机构:
曾华琳
;
论文数:
引用数:
h-index:
机构:
李堂秋
;
论文数:
引用数:
h-index:
机构:
史晓东
.
计算机应用,
2005,
(09)
:2025
-2027
[7]
汉语文本中交集型切分歧义的分类处理
[J].
李凯
论文数:
0
引用数:
0
h-index:
0
机构:
吉林大学计算机科学与技术学院,吉林大学计算机科学与技术学院,吉林大学计算机科学与技术学院吉林长春,吉林长春,吉林长春
李凯
;
论文数:
引用数:
h-index:
机构:
左万利
;
论文数:
引用数:
h-index:
机构:
吕巍
.
小型微型计算机系统,
2004,
(08)
:1486
-1490
[8]
基于上下文相关的最大概率汉语自动分词算法
[J].
金瑜
论文数:
0
引用数:
0
h-index:
0
机构:
合肥工业大学理学院,中国科学技术大学近代物理系,合肥工业大学理学院合肥,合肥,合肥
金瑜
;
陆启明
论文数:
0
引用数:
0
h-index:
0
机构:
合肥工业大学理学院,中国科学技术大学近代物理系,合肥工业大学理学院合肥,合肥,合肥
陆启明
;
论文数:
引用数:
h-index:
机构:
高峰
.
计算机工程,
2004,
(16)
:146
-148
[9]
Web中文文本分词技术研究
[J].
马玉春
论文数:
0
引用数:
0
h-index:
0
机构:
北京理工大学计算机系,北京理工大学计算机系北京,北京
马玉春
;
论文数:
引用数:
h-index:
机构:
宋瀚涛
.
计算机应用,
2004,
(04)
:134
-135+155
[10]
利用覆盖歧义检测法和统计语言模型进行汉语自动分词
[J].
论文数:
引用数:
h-index:
机构:
王显芳
;
论文数:
引用数:
h-index:
机构:
杜利民
.
电子与信息学报,
2003,
(09)
:1168
-1173
←
1
2
→