学术探索
学术期刊
学术作者
新闻热点
数据分析
智能评审
一个基于词典与统计的中文分词算法
被引:0
作者
:
论文数:
引用数:
h-index:
机构:
张旭
机构
:
[1]
电子科技大学
关键词
:
中文分词;
统计分词;
正向最大匹配算法;
逆向最大匹配算法;
哈希表;
D O I
:
暂无
年度学位
:
2007
学位类型
:
硕士
导师
:
朱清新;
摘要
:
本文重点介绍了一个基于字符串匹配与基于统计相结合的中文分词方法,解决了一定条件下的人名,地名,数量词等未登录词以及交集型歧义和自然语言的二义性引起的歧义等问题。本文的算法首先对待分词的字符串进行断句(优先在待分词的字符串中识别和切分出标点符号,以这些符号作为断点,可将原来的字符串分解为较小的串再进基于字符串匹配的分词,从而减少匹配的错误率),然后对断句结果运用正向和逆向最大匹配算法依次进行分词处理,再对处理结果进行比较,如果分词结果不同则表明可能存在歧义,就采用基于统计的方法进行歧义处理,从而提高了分词的准确率。 本文设计的算法在两个方面进行了改进,首先是在分词词典方面,将原来单一的词典分为基本词典和特征词词典两个部分。改进了基本分词词典在内存中的存储结构,根据汉语中两字词的数量最多的特点和哈希索引表查找效率高的特点,采用了双字哈希索引结构将词典中的词按前两个字为索引关键字进行存储,同时改进了剩余字串的存储方式,将词剩余字串按词长逆序存放,提高了匹配查找的速度。在匹配过程中结合特征词词典对歧义进行探测和处理,提高了机械分词的准确率,大大提高了对姓名、地名和数量词的正确切分率减少这些词所引起的歧义数量节省了歧义处理时间,提高了分词速度。其次是在统计分词方面的改进,本算法中利用统计方法处理未登录词和歧义。统计方法的最大缺点就是要求字串要在待分析的字符串中出现一次以上,所以基于统计的分词方法的分全率和准确性比较低,针对这一缺点在歧义处理上,我们加入了一些对汉语语言分析所得的规则,来弥补单纯的统计分词方法的不足。本文采取的歧义处理算法是统计与规则相结合的复合歧义处理算法,结合了根据大量语料统计所得的若干规则,以及语言学的一些知识,同时考虑了语言环境在歧义处理上的重要作用。歧义消解结果比较理想,在一定程度上提高了分词的准确性。
引用
收藏
页数:71
共 19 条
[1]
一种基于语境的中文分词方法研究
[J].
论文数:
引用数:
h-index:
机构:
张茂元
;
论文数:
引用数:
h-index:
机构:
卢正鼎
;
邹春燕
论文数:
0
引用数:
0
h-index:
0
机构:
华中科技大学计算机科学与技术学院,华中科技大学计算机科学与技术学院,华中师范大学外国语学院湖北武汉,湖北武汉,湖北武汉
邹春燕
.
小型微型计算机系统,
2005,
(01)
:129
-133
[2]
一种规则与统计相结合的汉语分词方法
[J].
论文数:
引用数:
h-index:
机构:
赵伟
;
论文数:
引用数:
h-index:
机构:
戴新宇
;
论文数:
引用数:
h-index:
机构:
尹存燕
;
论文数:
引用数:
h-index:
机构:
陈家骏
.
计算机应用研究,
2004,
(03)
:23
-25
[3]
一种中文分词词典新机制——双字哈希机制
[J].
李庆虎
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机系
李庆虎
;
陈玉健
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机系
陈玉健
;
孙家广
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机系
孙家广
.
中文信息学报,
2003,
(04)
:13
-18
[4]
国内中文分词技术研究新进展
[J].
论文数:
引用数:
h-index:
机构:
冯书晓
;
论文数:
引用数:
h-index:
机构:
徐新
;
论文数:
引用数:
h-index:
机构:
杨春梅
.
情报杂志,
2002,
(11)
:29
-30
[5]
文本分割算法对中文信息过滤影响研究
[J].
朱寰
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院软件研究所软件工程技术中心
朱寰
;
阮彤
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院软件研究所软件工程技术中心
阮彤
;
于庆喜
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院软件研究所软件工程技术中心
于庆喜
;
不详
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院软件研究所软件工程技术中心
不详
.
计算机工程与应用 ,
2002,
(13)
:62
-65
[6]
模糊聚类算法在汉语文本聚类中的应用
[J].
李家福
论文数:
0
引用数:
0
h-index:
0
机构:
解放军理工大学通信工程学院,解放军理工大学通信工程学院,解放军理工大学理学院南京,南京,南京
李家福
;
陆建江
论文数:
0
引用数:
0
h-index:
0
机构:
解放军理工大学通信工程学院,解放军理工大学通信工程学院,解放军理工大学理学院南京,南京,南京
陆建江
;
张亚非
论文数:
0
引用数:
0
h-index:
0
机构:
解放军理工大学通信工程学院,解放军理工大学通信工程学院,解放军理工大学理学院南京,南京,南京
张亚非
.
计算机工程,
2002,
(04)
:15
-16+33
[7]
一种改进的MM分词算法
[J].
郭辉
论文数:
0
引用数:
0
h-index:
0
机构:
上海交通大学信息与控制工程系
郭辉
;
苏中义
论文数:
0
引用数:
0
h-index:
0
机构:
上海交通大学信息与控制工程系
苏中义
;
王文
论文数:
0
引用数:
0
h-index:
0
机构:
上海交通大学信息与控制工程系
王文
;
崔骏
论文数:
0
引用数:
0
h-index:
0
机构:
上海交通大学信息与控制工程系
崔骏
.
微型电脑应用,
2002,
(01)
:13
-15+2
[8]
中文自动校对系统的研究与实现
[J].
论文数:
引用数:
h-index:
机构:
吴岩
;
论文数:
引用数:
h-index:
机构:
李秀坤
;
论文数:
引用数:
h-index:
机构:
刘挺
;
论文数:
引用数:
h-index:
机构:
王开铸
.
哈尔滨工业大学学报,
2001,
(01)
:60
-64
[9]
基于字表的中文搜索引擎分词系统的设计与实现
[J].
论文数:
引用数:
h-index:
机构:
丁承
;
论文数:
引用数:
h-index:
机构:
邵志清
.
计算机工程,
2001,
(02)
:191
-193
[10]
汉语自动分词词典机制的实验研究
[J].
论文数:
引用数:
h-index:
机构:
孙茂松
;
论文数:
引用数:
h-index:
机构:
左正平
;
论文数:
引用数:
h-index:
机构:
黄昌宁
.
中文信息学报,
2000,
(01)
:1
-6
←
1
2
→
共 19 条
[1]
一种基于语境的中文分词方法研究
[J].
论文数:
引用数:
h-index:
机构:
张茂元
;
论文数:
引用数:
h-index:
机构:
卢正鼎
;
邹春燕
论文数:
0
引用数:
0
h-index:
0
机构:
华中科技大学计算机科学与技术学院,华中科技大学计算机科学与技术学院,华中师范大学外国语学院湖北武汉,湖北武汉,湖北武汉
邹春燕
.
小型微型计算机系统,
2005,
(01)
:129
-133
[2]
一种规则与统计相结合的汉语分词方法
[J].
论文数:
引用数:
h-index:
机构:
赵伟
;
论文数:
引用数:
h-index:
机构:
戴新宇
;
论文数:
引用数:
h-index:
机构:
尹存燕
;
论文数:
引用数:
h-index:
机构:
陈家骏
.
计算机应用研究,
2004,
(03)
:23
-25
[3]
一种中文分词词典新机制——双字哈希机制
[J].
李庆虎
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机系
李庆虎
;
陈玉健
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机系
陈玉健
;
孙家广
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机系
孙家广
.
中文信息学报,
2003,
(04)
:13
-18
[4]
国内中文分词技术研究新进展
[J].
论文数:
引用数:
h-index:
机构:
冯书晓
;
论文数:
引用数:
h-index:
机构:
徐新
;
论文数:
引用数:
h-index:
机构:
杨春梅
.
情报杂志,
2002,
(11)
:29
-30
[5]
文本分割算法对中文信息过滤影响研究
[J].
朱寰
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院软件研究所软件工程技术中心
朱寰
;
阮彤
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院软件研究所软件工程技术中心
阮彤
;
于庆喜
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院软件研究所软件工程技术中心
于庆喜
;
不详
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院软件研究所软件工程技术中心
不详
.
计算机工程与应用 ,
2002,
(13)
:62
-65
[6]
模糊聚类算法在汉语文本聚类中的应用
[J].
李家福
论文数:
0
引用数:
0
h-index:
0
机构:
解放军理工大学通信工程学院,解放军理工大学通信工程学院,解放军理工大学理学院南京,南京,南京
李家福
;
陆建江
论文数:
0
引用数:
0
h-index:
0
机构:
解放军理工大学通信工程学院,解放军理工大学通信工程学院,解放军理工大学理学院南京,南京,南京
陆建江
;
张亚非
论文数:
0
引用数:
0
h-index:
0
机构:
解放军理工大学通信工程学院,解放军理工大学通信工程学院,解放军理工大学理学院南京,南京,南京
张亚非
.
计算机工程,
2002,
(04)
:15
-16+33
[7]
一种改进的MM分词算法
[J].
郭辉
论文数:
0
引用数:
0
h-index:
0
机构:
上海交通大学信息与控制工程系
郭辉
;
苏中义
论文数:
0
引用数:
0
h-index:
0
机构:
上海交通大学信息与控制工程系
苏中义
;
王文
论文数:
0
引用数:
0
h-index:
0
机构:
上海交通大学信息与控制工程系
王文
;
崔骏
论文数:
0
引用数:
0
h-index:
0
机构:
上海交通大学信息与控制工程系
崔骏
.
微型电脑应用,
2002,
(01)
:13
-15+2
[8]
中文自动校对系统的研究与实现
[J].
论文数:
引用数:
h-index:
机构:
吴岩
;
论文数:
引用数:
h-index:
机构:
李秀坤
;
论文数:
引用数:
h-index:
机构:
刘挺
;
论文数:
引用数:
h-index:
机构:
王开铸
.
哈尔滨工业大学学报,
2001,
(01)
:60
-64
[9]
基于字表的中文搜索引擎分词系统的设计与实现
[J].
论文数:
引用数:
h-index:
机构:
丁承
;
论文数:
引用数:
h-index:
机构:
邵志清
.
计算机工程,
2001,
(02)
:191
-193
[10]
汉语自动分词词典机制的实验研究
[J].
论文数:
引用数:
h-index:
机构:
孙茂松
;
论文数:
引用数:
h-index:
机构:
左正平
;
论文数:
引用数:
h-index:
机构:
黄昌宁
.
中文信息学报,
2000,
(01)
:1
-6
←
1
2
→