学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
基于Hash结构的逆向最大匹配分词算法的改进
被引:25
作者
:
丁振国
论文数:
0
引用数:
0
h-index:
0
机构:
西安电子科技大学计算机学院
丁振国
张卓
论文数:
0
引用数:
0
h-index:
0
机构:
西安电子科技大学计算机学院
张卓
黎靖
论文数:
0
引用数:
0
h-index:
0
机构:
西安电子科技大学计算机学院
黎靖
机构
:
[1]
西安电子科技大学计算机学院
来源
:
计算机工程与设计
|
2008年
/ 12期
关键词
:
中文分词;
哈希结构;
逆向最大匹配算法;
分词词典;
消除歧义;
D O I
:
10.16208/j.issn1000-7024.2008.12.039
中图分类号
:
TP391.1 [文字信息处理];
学科分类号
:
081203 ;
0835 ;
摘要
:
分析中文的语义,首先要对句子进行分词。中文分词是中文信息处理中最重要的预处理,分词的速度和精度直接影响信息处理的结果。对传统的分词词典和算法进行了改进,提出了基于Hash结构的分词词典机制,并给出了一种改进的逆向最大匹配分词算法(RMM)。该算法在重点考虑切分速度的同时兼顾了切分精度,在很大程度上消除了传统的最大匹配算法可能产生的歧义。实验结果表明,该分词算法在运行效率和结果的准确性方法有了很大的提高。
引用
收藏
页码:3208 / 3211+3265 +3265
页数:5
相关论文
共 8 条
[1]
数据结构.[M].严蔚敏;吴伟民编著;.清华大学出版社.1987,
[2]
信息检索用户查询语句的停用词过滤
[J].
熊文新
论文数:
0
引用数:
0
h-index:
0
机构:
北京外国语大学中国外语教育研究中心
北京外国语大学中国外语教育研究中心
熊文新
;
宋柔
论文数:
0
引用数:
0
h-index:
0
机构:
北京语言大学语言信息处理研究所
北京外国语大学中国外语教育研究中心
宋柔
.
计算机工程,
2007,
(06)
:195
-197
[3]
汉语分词词典设计
[J].
翟伟斌
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院高能物理研究所计算中心中国科学院研究生院
翟伟斌
;
周振柳
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院高能物理研究所计算中心中国科学院研究生院
周振柳
;
蒋卓明
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院高能物理研究所计算中心中国科学院研究生院
蒋卓明
;
许榕生
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院高能物理研究所计算中心中国科学院研究生院
许榕生
.
计算机工程与应用 ,
2007,
(01)
:1
-2+26
[4]
一种中文分词词典新机制——四字哈希机制
[J].
张培颖
论文数:
0
引用数:
0
h-index:
0
机构:
中国石油大学(华东)计算机与通信工程学院
张培颖
;
李村合
论文数:
0
引用数:
0
h-index:
0
机构:
中国石油大学(华东)计算机与通信工程学院
李村合
.
微型电脑应用,
2006,
(10)
:35
-36+55+66
[5]
基于反序词典的中文逆向最大匹配分词系统设计
[J].
张李义
论文数:
0
引用数:
0
h-index:
0
机构:
武汉大学信息管理学院
张李义
;
李亚子
论文数:
0
引用数:
0
h-index:
0
机构:
武汉大学信息管理学院
李亚子
.
现代图书情报技术,
2006,
(08)
:42
-45+30
[6]
一种中文分词词典新机制——双字哈希机制
[J].
李庆虎
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机系
李庆虎
;
陈玉健
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机系
陈玉健
;
孙家广
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机系
孙家广
.
中文信息学报,
2003,
(04)
:13
-18
[7]
全二分最大匹配快速分词算法
[J].
李振星
论文数:
0
引用数:
0
h-index:
0
机构:
北京航空航天大学机械工程及自动化学院
李振星
;
徐泽平
论文数:
0
引用数:
0
h-index:
0
机构:
北京航空航天大学机械工程及自动化学院
徐泽平
;
论文数:
引用数:
h-index:
机构:
唐卫清
;
唐荣锡
论文数:
0
引用数:
0
h-index:
0
机构:
北京航空航天大学机械工程及自动化学院
唐荣锡
.
计算机工程与应用,
2002,
(11)
:106
-109
[8]
一种改进的MM分词算法
[J].
郭辉
论文数:
0
引用数:
0
h-index:
0
机构:
上海交通大学信息与控制工程系
郭辉
;
苏中义
论文数:
0
引用数:
0
h-index:
0
机构:
上海交通大学信息与控制工程系
苏中义
;
王文
论文数:
0
引用数:
0
h-index:
0
机构:
上海交通大学信息与控制工程系
王文
;
崔骏
论文数:
0
引用数:
0
h-index:
0
机构:
上海交通大学信息与控制工程系
崔骏
.
微型电脑应用,
2002,
(01)
:13
-15+2
←
1
→
共 8 条
[1]
数据结构.[M].严蔚敏;吴伟民编著;.清华大学出版社.1987,
[2]
信息检索用户查询语句的停用词过滤
[J].
熊文新
论文数:
0
引用数:
0
h-index:
0
机构:
北京外国语大学中国外语教育研究中心
北京外国语大学中国外语教育研究中心
熊文新
;
宋柔
论文数:
0
引用数:
0
h-index:
0
机构:
北京语言大学语言信息处理研究所
北京外国语大学中国外语教育研究中心
宋柔
.
计算机工程,
2007,
(06)
:195
-197
[3]
汉语分词词典设计
[J].
翟伟斌
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院高能物理研究所计算中心中国科学院研究生院
翟伟斌
;
周振柳
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院高能物理研究所计算中心中国科学院研究生院
周振柳
;
蒋卓明
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院高能物理研究所计算中心中国科学院研究生院
蒋卓明
;
许榕生
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院高能物理研究所计算中心中国科学院研究生院
许榕生
.
计算机工程与应用 ,
2007,
(01)
:1
-2+26
[4]
一种中文分词词典新机制——四字哈希机制
[J].
张培颖
论文数:
0
引用数:
0
h-index:
0
机构:
中国石油大学(华东)计算机与通信工程学院
张培颖
;
李村合
论文数:
0
引用数:
0
h-index:
0
机构:
中国石油大学(华东)计算机与通信工程学院
李村合
.
微型电脑应用,
2006,
(10)
:35
-36+55+66
[5]
基于反序词典的中文逆向最大匹配分词系统设计
[J].
张李义
论文数:
0
引用数:
0
h-index:
0
机构:
武汉大学信息管理学院
张李义
;
李亚子
论文数:
0
引用数:
0
h-index:
0
机构:
武汉大学信息管理学院
李亚子
.
现代图书情报技术,
2006,
(08)
:42
-45+30
[6]
一种中文分词词典新机制——双字哈希机制
[J].
李庆虎
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机系
李庆虎
;
陈玉健
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机系
陈玉健
;
孙家广
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机系
孙家广
.
中文信息学报,
2003,
(04)
:13
-18
[7]
全二分最大匹配快速分词算法
[J].
李振星
论文数:
0
引用数:
0
h-index:
0
机构:
北京航空航天大学机械工程及自动化学院
李振星
;
徐泽平
论文数:
0
引用数:
0
h-index:
0
机构:
北京航空航天大学机械工程及自动化学院
徐泽平
;
论文数:
引用数:
h-index:
机构:
唐卫清
;
唐荣锡
论文数:
0
引用数:
0
h-index:
0
机构:
北京航空航天大学机械工程及自动化学院
唐荣锡
.
计算机工程与应用,
2002,
(11)
:106
-109
[8]
一种改进的MM分词算法
[J].
郭辉
论文数:
0
引用数:
0
h-index:
0
机构:
上海交通大学信息与控制工程系
郭辉
;
苏中义
论文数:
0
引用数:
0
h-index:
0
机构:
上海交通大学信息与控制工程系
苏中义
;
王文
论文数:
0
引用数:
0
h-index:
0
机构:
上海交通大学信息与控制工程系
王文
;
崔骏
论文数:
0
引用数:
0
h-index:
0
机构:
上海交通大学信息与控制工程系
崔骏
.
微型电脑应用,
2002,
(01)
:13
-15+2
←
1
→