学术探索
学术期刊
学术作者
新闻热点
数据分析
智能评审
基于改进最大匹配算法的中文分词粗分方法
被引:85
作者
:
论文数:
引用数:
h-index:
机构:
周俊
[
1
,
2
]
郑中华
论文数:
0
引用数:
0
h-index:
0
机构:
中国人民大学教育学院
华中科技大学模具技术国家重点实验室
郑中华
[
3
]
张炜
论文数:
0
引用数:
0
h-index:
0
机构:
安徽博约信息科技有限责任公司
华中科技大学模具技术国家重点实验室
张炜
[
2
]
机构
:
[1]
华中科技大学模具技术国家重点实验室
[2]
安徽博约信息科技有限责任公司
[3]
中国人民大学教育学院
来源
:
计算机工程与应用
|
2014年
/ 50卷
/ 02期
关键词
:
中文分词;
最大匹配;
广义词;
诱导词集;
D O I
:
暂无
中图分类号
:
TP391.12 [];
学科分类号
:
摘要
:
中文粗分和歧义消解是中文分词的两大基本过程。通过引入广义词条和诱导词集,在最大匹配算法基础上提出一种中文分词的粗分方法,以最长广义词匹配为原则进行中文分词,利用诱导词集实现交叉型歧义识别。在保证快速准确切分无歧义汉语语句的同时,100%检测并标记有歧义汉语语句中的交叉型歧义,最大程度上简化后续歧义消解过程。通过对含有160万汉字1998年1月人民日报语料测试的结果证明了算法速度、歧义词准确率以及粗分召回率的有效性。
引用
收藏
页码:124 / 128
页数:5
相关论文
共 5 条
[1]
回溯正向匹配中文分词算法
[J].
论文数:
引用数:
h-index:
机构:
张劲松
;
论文数:
引用数:
h-index:
机构:
袁健
.
计算机工程与应用,
2009,
(22)
:132
-134
[2]
一种改进的增字最大匹配算法
[J].
论文数:
引用数:
h-index:
机构:
金在全
;
论文数:
引用数:
h-index:
机构:
赵照
;
论文数:
引用数:
h-index:
机构:
杜秀全
;
论文数:
引用数:
h-index:
机构:
张东
.
科学技术与工程,
2007,
(18)
:4761
-4764
[3]
一种规则与统计相结合的汉语分词方法
[J].
论文数:
引用数:
h-index:
机构:
赵伟
;
论文数:
引用数:
h-index:
机构:
戴新宇
;
论文数:
引用数:
h-index:
机构:
尹存燕
;
论文数:
引用数:
h-index:
机构:
陈家骏
.
计算机应用研究,
2004,
(03)
:23
-25
[4]
基于N-最短路径方法的中文词语粗分模型
[J].
张华平
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所软件实验室
张华平
;
刘群
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所软件实验室
刘群
.
中文信息学报,
2002,
(05)
:1
-7
[5]
利用汉字二元语法关系解决汉语自动分词中的交集型歧义
[J].
论文数:
引用数:
h-index:
机构:
孙茂松
;
论文数:
引用数:
h-index:
机构:
黄昌宁
;
邹嘉彦
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机科学与技术系,香港城市大学语言资讯科学研究中心
邹嘉彦
;
陆方
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机科学与技术系,香港城市大学语言资讯科学研究中心
陆方
;
沈达阳
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机科学与技术系,香港城市大学语言资讯科学研究中心
沈达阳
.
计算机研究与发展,
1997,
(05)
←
1
→
共 5 条
[1]
回溯正向匹配中文分词算法
[J].
论文数:
引用数:
h-index:
机构:
张劲松
;
论文数:
引用数:
h-index:
机构:
袁健
.
计算机工程与应用,
2009,
(22)
:132
-134
[2]
一种改进的增字最大匹配算法
[J].
论文数:
引用数:
h-index:
机构:
金在全
;
论文数:
引用数:
h-index:
机构:
赵照
;
论文数:
引用数:
h-index:
机构:
杜秀全
;
论文数:
引用数:
h-index:
机构:
张东
.
科学技术与工程,
2007,
(18)
:4761
-4764
[3]
一种规则与统计相结合的汉语分词方法
[J].
论文数:
引用数:
h-index:
机构:
赵伟
;
论文数:
引用数:
h-index:
机构:
戴新宇
;
论文数:
引用数:
h-index:
机构:
尹存燕
;
论文数:
引用数:
h-index:
机构:
陈家骏
.
计算机应用研究,
2004,
(03)
:23
-25
[4]
基于N-最短路径方法的中文词语粗分模型
[J].
张华平
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所软件实验室
张华平
;
刘群
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所软件实验室
刘群
.
中文信息学报,
2002,
(05)
:1
-7
[5]
利用汉字二元语法关系解决汉语自动分词中的交集型歧义
[J].
论文数:
引用数:
h-index:
机构:
孙茂松
;
论文数:
引用数:
h-index:
机构:
黄昌宁
;
邹嘉彦
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机科学与技术系,香港城市大学语言资讯科学研究中心
邹嘉彦
;
陆方
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机科学与技术系,香港城市大学语言资讯科学研究中心
陆方
;
沈达阳
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机科学与技术系,香港城市大学语言资讯科学研究中心
沈达阳
.
计算机研究与发展,
1997,
(05)
←
1
→