学术探索
学术期刊
学术作者
新闻热点
数据分析
智能评审
汉语组块识别的研究
被引:0
作者
:
罗雪兵
论文数:
0
引用数:
0
h-index:
0
机构:
大连理工大学
大连理工大学
罗雪兵
机构
:
[1]
大连理工大学
关键词
:
自然语言处理;
组块分析;
特殊隐马尔可夫模型;
支持向量机;
条件随机域;
D O I
:
暂无
年度学位
:
2007
学位类型
:
硕士
导师
:
黄德根;
摘要
:
随着自然语言处理中词法分析的日趋成熟,句法分析已经成为当前研究的重点和难点,组块识别的提出是为了降低完全句法分析的复杂性。通过采用“分而治之”的策略将句法分析分为组块识别和组块间关系分析,这样将词级的处理转换为组块级的处理,降低了句法分析的难度。本文的目的就是在词法分析的基础上,完成汉语句子的组块识别,为完全句法分析和其他自然语言处理任务提供基础。 论文阐述了组块识别的研究现状及研究意义,给出了本文研究的组块定义及组块分类,研究并实现了基于特殊隐马尔可夫模型(Hidden markov model,HMM)、支持向量机(Support vector machine,SVM)以及条件随机域(Conditional random fields,CRF)的组块识别系统,应用特征扩展和voting组合法改善组块识别结果。 文中给出了特殊HMM、SVM、CRF三种统计学习模型的识别效果。通过错误数据分析,发现特殊符号、并列关系以及较粗的词性会导致识别错误,并针对这些问题提出了一个特征扩展方法。在此基础上,给出了一种基于标点符号分割段的voting法结合三种统计模型,进一步改善了组块的识别效果。 实验表明,三种基本组块识别模型都取得了较好的结果,其中特殊HMM组块识别结果的F值为86.01%,SVM组块识别结果的F值为90.89%,CRF组块识别结果的F值为91.08%,从实验上验证了三种模型的有效性。在引入特征扩展特征和voting组合法后,组块识别结果的F值提高到91.39%。 本文的研究成果可应用于实际翻译系统中,达到简化句子结构、提高机器翻译系统整体性能的目的。另外还可进一步应用到信息检索、文本分类等自然语言处理领域中。
引用
收藏
页数:66
共 24 条
[1]
基于SVM的组块识别及其错误驱动学习方法
[J].
论文数:
引用数:
h-index:
机构:
黄德根
;
王莹莹
论文数:
0
引用数:
0
h-index:
0
机构:
大连理工大学计算机科学与工程系
王莹莹
.
中文信息学报,
2006,
(06)
:17
-24
[2]
Co-training机器学习方法在中文组块识别中的应用
[J].
刘世岳
论文数:
0
引用数:
0
h-index:
0
机构:
东北大学计算机软件与理论研究所
刘世岳
;
李珩
论文数:
0
引用数:
0
h-index:
0
机构:
东北大学计算机软件与理论研究所
李珩
;
张俐
论文数:
0
引用数:
0
h-index:
0
机构:
东北大学计算机软件与理论研究所
张俐
;
姚天顺
论文数:
0
引用数:
0
h-index:
0
机构:
东北大学计算机软件与理论研究所
姚天顺
.
中文信息学报,
2005,
(03)
:73
-79
[3]
基于Stacking算法的组合分类器及其应用于中文组块分析
[J].
李珩
论文数:
0
引用数:
0
h-index:
0
机构:
东北大学计算机软件与理论研究所,东北大学计算机软件与理论研究所,东北大学计算机软件与理论研究所沈阳,沈阳,沈阳
李珩
;
论文数:
引用数:
h-index:
机构:
朱靖波
;
论文数:
引用数:
h-index:
机构:
姚天顺
.
计算机研究与发展,
2005,
(05)
:844
-848
[4]
基于神经元网络的汉语组块自动划分
[J].
王荣波
论文数:
0
引用数:
0
h-index:
0
机构:
香港理工大学电子及资讯工程系,香港理工大学电子及资讯工程系香港,香港
王荣波
;
池哲儒
论文数:
0
引用数:
0
h-index:
0
机构:
香港理工大学电子及资讯工程系,香港理工大学电子及资讯工程系香港,香港
池哲儒
.
计算机工程,
2004,
(20)
:133
-135
[5]
基于SVM的中文组块分析
[J].
李珩
论文数:
0
引用数:
0
h-index:
0
机构:
东北大学计算机软件与理论研究所
李珩
;
朱靖波
论文数:
0
引用数:
0
h-index:
0
机构:
东北大学计算机软件与理论研究所
朱靖波
;
姚天顺
论文数:
0
引用数:
0
h-index:
0
机构:
东北大学计算机软件与理论研究所
姚天顺
.
中文信息学报,
2004,
(02)
:1
-7
[6]
基于增益的隐马尔科夫模型的文本组块分析
[J].
李珩
论文数:
0
引用数:
0
h-index:
0
机构:
东北大学计算机软件与理论研究所,东北大学计算机软件与理论研究所,东北大学计算机软件与理论研究所,东北大学计算机软件与理论研究所沈阳,沈阳,沈阳,沈阳
李珩
;
杨峰
论文数:
0
引用数:
0
h-index:
0
机构:
东北大学计算机软件与理论研究所,东北大学计算机软件与理论研究所,东北大学计算机软件与理论研究所,东北大学计算机软件与理论研究所沈阳,沈阳,沈阳,沈阳
杨峰
;
论文数:
引用数:
h-index:
机构:
朱靖波
;
论文数:
引用数:
h-index:
机构:
姚天顺
.
计算机科学,
2004,
(02)
:152
-154+192
[7]
基于最大熵模型的组块分析
[J].
李素建
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算语言学研究所
李素建
;
刘群
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算语言学研究所
刘群
;
杨志峰
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算语言学研究所
杨志峰
.
计算机学报,
2003,
(12)
:1722
-1727
[8]
基于最大熵方法的中英文基本名词短语识别
[J].
论文数:
引用数:
h-index:
机构:
周雅倩
;
论文数:
引用数:
h-index:
机构:
郭以昆
;
论文数:
引用数:
h-index:
机构:
黄萱菁
;
论文数:
引用数:
h-index:
机构:
吴立德
.
计算机研究与发展,
2003,
(03)
:440
-446
[9]
北京大学现代汉语语料库基本加工规范(续)
[J].
俞士汶
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算机系
俞士汶
;
段慧明
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算机系
段慧明
;
朱学锋
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算机系
朱学锋
;
孙斌
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算机系
孙斌
.
中文信息学报,
2002,
(06)
:58
-64
[10]
汉语基本短语的自动识别
[J].
张昱琪
论文数:
0
引用数:
0
h-index:
0
机构:
智能技术与系统国家重点实验室,智能技术与系统国家重点实验室清华大学计算机系北京,清华大学计算机系北京
张昱琪
;
论文数:
引用数:
h-index:
机构:
周强
.
中文信息学报,
2002,
(06)
:1
-8
←
1
2
3
→
共 24 条
[1]
基于SVM的组块识别及其错误驱动学习方法
[J].
论文数:
引用数:
h-index:
机构:
黄德根
;
王莹莹
论文数:
0
引用数:
0
h-index:
0
机构:
大连理工大学计算机科学与工程系
王莹莹
.
中文信息学报,
2006,
(06)
:17
-24
[2]
Co-training机器学习方法在中文组块识别中的应用
[J].
刘世岳
论文数:
0
引用数:
0
h-index:
0
机构:
东北大学计算机软件与理论研究所
刘世岳
;
李珩
论文数:
0
引用数:
0
h-index:
0
机构:
东北大学计算机软件与理论研究所
李珩
;
张俐
论文数:
0
引用数:
0
h-index:
0
机构:
东北大学计算机软件与理论研究所
张俐
;
姚天顺
论文数:
0
引用数:
0
h-index:
0
机构:
东北大学计算机软件与理论研究所
姚天顺
.
中文信息学报,
2005,
(03)
:73
-79
[3]
基于Stacking算法的组合分类器及其应用于中文组块分析
[J].
李珩
论文数:
0
引用数:
0
h-index:
0
机构:
东北大学计算机软件与理论研究所,东北大学计算机软件与理论研究所,东北大学计算机软件与理论研究所沈阳,沈阳,沈阳
李珩
;
论文数:
引用数:
h-index:
机构:
朱靖波
;
论文数:
引用数:
h-index:
机构:
姚天顺
.
计算机研究与发展,
2005,
(05)
:844
-848
[4]
基于神经元网络的汉语组块自动划分
[J].
王荣波
论文数:
0
引用数:
0
h-index:
0
机构:
香港理工大学电子及资讯工程系,香港理工大学电子及资讯工程系香港,香港
王荣波
;
池哲儒
论文数:
0
引用数:
0
h-index:
0
机构:
香港理工大学电子及资讯工程系,香港理工大学电子及资讯工程系香港,香港
池哲儒
.
计算机工程,
2004,
(20)
:133
-135
[5]
基于SVM的中文组块分析
[J].
李珩
论文数:
0
引用数:
0
h-index:
0
机构:
东北大学计算机软件与理论研究所
李珩
;
朱靖波
论文数:
0
引用数:
0
h-index:
0
机构:
东北大学计算机软件与理论研究所
朱靖波
;
姚天顺
论文数:
0
引用数:
0
h-index:
0
机构:
东北大学计算机软件与理论研究所
姚天顺
.
中文信息学报,
2004,
(02)
:1
-7
[6]
基于增益的隐马尔科夫模型的文本组块分析
[J].
李珩
论文数:
0
引用数:
0
h-index:
0
机构:
东北大学计算机软件与理论研究所,东北大学计算机软件与理论研究所,东北大学计算机软件与理论研究所,东北大学计算机软件与理论研究所沈阳,沈阳,沈阳,沈阳
李珩
;
杨峰
论文数:
0
引用数:
0
h-index:
0
机构:
东北大学计算机软件与理论研究所,东北大学计算机软件与理论研究所,东北大学计算机软件与理论研究所,东北大学计算机软件与理论研究所沈阳,沈阳,沈阳,沈阳
杨峰
;
论文数:
引用数:
h-index:
机构:
朱靖波
;
论文数:
引用数:
h-index:
机构:
姚天顺
.
计算机科学,
2004,
(02)
:152
-154+192
[7]
基于最大熵模型的组块分析
[J].
李素建
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算语言学研究所
李素建
;
刘群
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算语言学研究所
刘群
;
杨志峰
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算语言学研究所
杨志峰
.
计算机学报,
2003,
(12)
:1722
-1727
[8]
基于最大熵方法的中英文基本名词短语识别
[J].
论文数:
引用数:
h-index:
机构:
周雅倩
;
论文数:
引用数:
h-index:
机构:
郭以昆
;
论文数:
引用数:
h-index:
机构:
黄萱菁
;
论文数:
引用数:
h-index:
机构:
吴立德
.
计算机研究与发展,
2003,
(03)
:440
-446
[9]
北京大学现代汉语语料库基本加工规范(续)
[J].
俞士汶
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算机系
俞士汶
;
段慧明
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算机系
段慧明
;
朱学锋
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算机系
朱学锋
;
孙斌
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算机系
孙斌
.
中文信息学报,
2002,
(06)
:58
-64
[10]
汉语基本短语的自动识别
[J].
张昱琪
论文数:
0
引用数:
0
h-index:
0
机构:
智能技术与系统国家重点实验室,智能技术与系统国家重点实验室清华大学计算机系北京,清华大学计算机系北京
张昱琪
;
论文数:
引用数:
h-index:
机构:
周强
.
中文信息学报,
2002,
(06)
:1
-8
←
1
2
3
→