学术探索
学术期刊
学术作者
新闻热点
数据分析
智能评审
基于条件随机场的中文分词研究
被引:0
作者
:
论文数:
引用数:
h-index:
机构:
姜锋
机构
:
[1]
大连理工大学
关键词
:
分词;
条件随机场;
全切分;
D O I
:
暂无
年度学位
:
2006
学位类型
:
硕士
导师
:
黄德根;
摘要
:
分词是中文自然语言处理的基本问题。很多自然语言处理任务都建立在分词的基础之上,分词的准确程度直接影响到一系列后续处理的正确性。但由于汉语自身的复杂性,分词问题一直是中文自然语言处理的难题。 条件随机场是一种无向图模型,它具有产生式模型和最大熵马尔可夫模型的优点。既可以利用任意上下文特征,并对这些特征进行训练;又可以通过折衷不同位置的不同特征值的方法获得全局最优的标记结果。 基于统计的中文分词按照分类单位划分,通常可分为基于汉字标注的分词和基于全切分图的分词两种方法。目前,条件随机场方法主要应用于基于汉字标注的分词问题研究,但这种方法不能有效地利用词汇信息。本文对基于条件随机场的中分分词理论和技术做了研究,并实现了一个基于全切分图的条件随机场分词训练和测试系统。由于汉语的词之间没有明显的边界标记,所以无法直接用条件随机场进行分词模型的训练和测试。本文使用构建起始词矩阵和结束词矩阵的方法,来辅助构建基于全切分图的条件随机场模型。本文使用机器学习方法训练基于全切分图的条件随机场模型。与汉字标注的分词方法不同,基于全切分图的分词方法可以更方便的利用词汇以及领域的信息。本文使用了单词的词形和词性信息等领域信息作为特征,构建条件随机场的分词模型。为了提高条件随机场训练系统的性能,本文采用一系列优化策略,提高训练速度。 本文使用人民日报一个月的语料作为训练数据,使用全切分图的方法构建条件随机场模型,分词结果的正确率为0.967。实验表明,基于条件随机场的分词方法,是一种可行的分词手段。
引用
收藏
页数:62
共 19 条
[1]
基于层叠隐马模型的汉语词法分析
[J].
刘群
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所,中国科学院计算技术研究所,中国科学院计算技术研究所,中国科学院计算技术研究所北京,北京大学计算语言学研究所北京,北京,中国科学院研究生院北京,北京,北京
刘群
;
张华平
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所,中国科学院计算技术研究所,中国科学院计算技术研究所,中国科学院计算技术研究所北京,北京大学计算语言学研究所北京,北京,中国科学院研究生院北京,北京,北京
张华平
;
俞鸿魁
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所,中国科学院计算技术研究所,中国科学院计算技术研究所,中国科学院计算技术研究所北京,北京大学计算语言学研究所北京,北京,中国科学院研究生院北京,北京,北京
俞鸿魁
;
程学旗
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所,中国科学院计算技术研究所,中国科学院计算技术研究所,中国科学院计算技术研究所北京,北京大学计算语言学研究所北京,北京,中国科学院研究生院北京,北京,北京
程学旗
.
计算机研究与发展,
2004,
(08)
:1421
-1429
[2]
一种能够检测所有交叉歧义的汉语分词算法
[J].
论文数:
引用数:
h-index:
机构:
王显芳
;
论文数:
引用数:
h-index:
机构:
杜利民
.
电子学报,
2004,
(01)
:50
-54
[3]
基于角色标注的中国人名自动识别研究
[J].
张华平
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所
张华平
;
刘群
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所
刘群
.
计算机学报,
2004,
(01)
:85
-91
[4]
基于汉语二字应成词的歧义字段切分方法
[J].
论文数:
引用数:
h-index:
机构:
郑德权
;
于凤
论文数:
0
引用数:
0
h-index:
0
机构:
哈尔滨工业大学计算机科学与技术学院,哈尔滨商业大学计算中心,哈尔滨工业大学计算机科学与技术学院哈尔滨,哈尔滨,哈尔滨
于凤
;
王开涛
论文数:
0
引用数:
0
h-index:
0
机构:
哈尔滨工业大学计算机科学与技术学院,哈尔滨商业大学计算中心,哈尔滨工业大学计算机科学与技术学院哈尔滨,哈尔滨,哈尔滨
王开涛
;
论文数:
引用数:
h-index:
机构:
赵铁军
.
计算机工程与应用,
2003,
(01)
:17
-18+26
[5]
基于N-最短路径方法的中文词语粗分模型
[J].
张华平
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所软件实验室
张华平
;
刘群
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所软件实验室
刘群
.
中文信息学报,
2002,
(05)
:1
-7
[6]
基于EM算法的汉语自动分词方法
[J].
李家福
论文数:
0
引用数:
0
h-index:
0
机构:
解放军理工大学通信工程学院,解放军理工大学理学院南京,南京
李家福
;
张亚非
论文数:
0
引用数:
0
h-index:
0
机构:
解放军理工大学通信工程学院,解放军理工大学理学院南京,南京
张亚非
.
情报学报,
2002,
(03)
:269
-272
[7]
演化算法在中文自动分词中的应用
[J].
论文数:
引用数:
h-index:
机构:
何炎祥
;
冯夏根
论文数:
0
引用数:
0
h-index:
0
机构:
武汉大学计算机学院软件工程国家重点实验室,武汉大学计算机学院软件工程国家重点实验室,武汉大学计算机学院软件工程国家重点实验室武汉,武汉,武汉
冯夏根
;
周水庚
论文数:
0
引用数:
0
h-index:
0
机构:
武汉大学计算机学院软件工程国家重点实验室,武汉大学计算机学院软件工程国家重点实验室,武汉大学计算机学院软件工程国家重点实验室武汉,武汉,武汉
周水庚
.
计算机工程,
2002,
(05)
:80
-82
[8]
基于统计方法的中文姓名识别
[J].
论文数:
引用数:
h-index:
机构:
黄德根
;
杨元生
论文数:
0
引用数:
0
h-index:
0
机构:
大连理工大学计算机科学与工程系!大连大连理工大学工程力学研究所大连,大连理工大学计算机科学与工程系!大连,大连理工大学计算机科学与工程系!大连,大连理工大学计算机科学与工程系!大连,大连理工大学工程力学研究所!大连
杨元生
;
王省
论文数:
0
引用数:
0
h-index:
0
机构:
大连理工大学计算机科学与工程系!大连大连理工大学工程力学研究所大连,大连理工大学计算机科学与工程系!大连,大连理工大学计算机科学与工程系!大连,大连理工大学计算机科学与工程系!大连,大连理工大学工程力学研究所!大连
王省
;
张艳丽
论文数:
0
引用数:
0
h-index:
0
机构:
大连理工大学计算机科学与工程系!大连大连理工大学工程力学研究所大连,大连理工大学计算机科学与工程系!大连,大连理工大学计算机科学与工程系!大连,大连理工大学计算机科学与工程系!大连,大连理工大学工程力学研究所!大连
张艳丽
;
论文数:
引用数:
h-index:
机构:
钟万勰
.
中文信息学报,
2001,
(02)
:31
-37+44
[9]
一种改进的快速分词算法
[J].
陈桂林
论文数:
0
引用数:
0
h-index:
0
机构:
上海交通大学网络信息中心!上海,上海交通大学网络信息中心!上海,上海交通大学网络信息中心!上海,上海交通大学网络信息中心!上海
陈桂林
;
王永成
论文数:
0
引用数:
0
h-index:
0
机构:
上海交通大学网络信息中心!上海,上海交通大学网络信息中心!上海,上海交通大学网络信息中心!上海,上海交通大学网络信息中心!上海
王永成
;
论文数:
引用数:
h-index:
机构:
韩客松
;
论文数:
引用数:
h-index:
机构:
王刚
.
计算机研究与发展,
2000,
(04)
:418
-424
[10]
基于最长次长匹配的汉语自动分词
[J].
论文数:
引用数:
h-index:
机构:
黄德根
;
朱和合
论文数:
0
引用数:
0
h-index:
0
机构:
大连理工大学工程力学研究所!辽宁大连,大连理工大学计算机科学与工程系,辽宁大连,大连理工大学计算机科学与工程系!辽宁大连,大连理工大学计算机科学与工程系!辽宁大连,大连理工大学计算机科学与工程系!辽宁大连,大连理工大学工程力学研究所!辽
朱和合
;
王昆仑
论文数:
0
引用数:
0
h-index:
0
机构:
大连理工大学工程力学研究所!辽宁大连,大连理工大学计算机科学与工程系,辽宁大连,大连理工大学计算机科学与工程系!辽宁大连,大连理工大学计算机科学与工程系!辽宁大连,大连理工大学计算机科学与工程系!辽宁大连,大连理工大学工程力学研究所!辽
王昆仑
;
杨元生
论文数:
0
引用数:
0
h-index:
0
机构:
大连理工大学工程力学研究所!辽宁大连,大连理工大学计算机科学与工程系,辽宁大连,大连理工大学计算机科学与工程系!辽宁大连,大连理工大学计算机科学与工程系!辽宁大连,大连理工大学计算机科学与工程系!辽宁大连,大连理工大学工程力学研究所!辽
杨元生
;
论文数:
引用数:
h-index:
机构:
钟万勰
.
大连理工大学学报,
1999,
(06)
:831
-835
←
1
2
→
共 19 条
[1]
基于层叠隐马模型的汉语词法分析
[J].
刘群
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所,中国科学院计算技术研究所,中国科学院计算技术研究所,中国科学院计算技术研究所北京,北京大学计算语言学研究所北京,北京,中国科学院研究生院北京,北京,北京
刘群
;
张华平
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所,中国科学院计算技术研究所,中国科学院计算技术研究所,中国科学院计算技术研究所北京,北京大学计算语言学研究所北京,北京,中国科学院研究生院北京,北京,北京
张华平
;
俞鸿魁
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所,中国科学院计算技术研究所,中国科学院计算技术研究所,中国科学院计算技术研究所北京,北京大学计算语言学研究所北京,北京,中国科学院研究生院北京,北京,北京
俞鸿魁
;
程学旗
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所,中国科学院计算技术研究所,中国科学院计算技术研究所,中国科学院计算技术研究所北京,北京大学计算语言学研究所北京,北京,中国科学院研究生院北京,北京,北京
程学旗
.
计算机研究与发展,
2004,
(08)
:1421
-1429
[2]
一种能够检测所有交叉歧义的汉语分词算法
[J].
论文数:
引用数:
h-index:
机构:
王显芳
;
论文数:
引用数:
h-index:
机构:
杜利民
.
电子学报,
2004,
(01)
:50
-54
[3]
基于角色标注的中国人名自动识别研究
[J].
张华平
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所
张华平
;
刘群
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所
刘群
.
计算机学报,
2004,
(01)
:85
-91
[4]
基于汉语二字应成词的歧义字段切分方法
[J].
论文数:
引用数:
h-index:
机构:
郑德权
;
于凤
论文数:
0
引用数:
0
h-index:
0
机构:
哈尔滨工业大学计算机科学与技术学院,哈尔滨商业大学计算中心,哈尔滨工业大学计算机科学与技术学院哈尔滨,哈尔滨,哈尔滨
于凤
;
王开涛
论文数:
0
引用数:
0
h-index:
0
机构:
哈尔滨工业大学计算机科学与技术学院,哈尔滨商业大学计算中心,哈尔滨工业大学计算机科学与技术学院哈尔滨,哈尔滨,哈尔滨
王开涛
;
论文数:
引用数:
h-index:
机构:
赵铁军
.
计算机工程与应用,
2003,
(01)
:17
-18+26
[5]
基于N-最短路径方法的中文词语粗分模型
[J].
张华平
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所软件实验室
张华平
;
刘群
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所软件实验室
刘群
.
中文信息学报,
2002,
(05)
:1
-7
[6]
基于EM算法的汉语自动分词方法
[J].
李家福
论文数:
0
引用数:
0
h-index:
0
机构:
解放军理工大学通信工程学院,解放军理工大学理学院南京,南京
李家福
;
张亚非
论文数:
0
引用数:
0
h-index:
0
机构:
解放军理工大学通信工程学院,解放军理工大学理学院南京,南京
张亚非
.
情报学报,
2002,
(03)
:269
-272
[7]
演化算法在中文自动分词中的应用
[J].
论文数:
引用数:
h-index:
机构:
何炎祥
;
冯夏根
论文数:
0
引用数:
0
h-index:
0
机构:
武汉大学计算机学院软件工程国家重点实验室,武汉大学计算机学院软件工程国家重点实验室,武汉大学计算机学院软件工程国家重点实验室武汉,武汉,武汉
冯夏根
;
周水庚
论文数:
0
引用数:
0
h-index:
0
机构:
武汉大学计算机学院软件工程国家重点实验室,武汉大学计算机学院软件工程国家重点实验室,武汉大学计算机学院软件工程国家重点实验室武汉,武汉,武汉
周水庚
.
计算机工程,
2002,
(05)
:80
-82
[8]
基于统计方法的中文姓名识别
[J].
论文数:
引用数:
h-index:
机构:
黄德根
;
杨元生
论文数:
0
引用数:
0
h-index:
0
机构:
大连理工大学计算机科学与工程系!大连大连理工大学工程力学研究所大连,大连理工大学计算机科学与工程系!大连,大连理工大学计算机科学与工程系!大连,大连理工大学计算机科学与工程系!大连,大连理工大学工程力学研究所!大连
杨元生
;
王省
论文数:
0
引用数:
0
h-index:
0
机构:
大连理工大学计算机科学与工程系!大连大连理工大学工程力学研究所大连,大连理工大学计算机科学与工程系!大连,大连理工大学计算机科学与工程系!大连,大连理工大学计算机科学与工程系!大连,大连理工大学工程力学研究所!大连
王省
;
张艳丽
论文数:
0
引用数:
0
h-index:
0
机构:
大连理工大学计算机科学与工程系!大连大连理工大学工程力学研究所大连,大连理工大学计算机科学与工程系!大连,大连理工大学计算机科学与工程系!大连,大连理工大学计算机科学与工程系!大连,大连理工大学工程力学研究所!大连
张艳丽
;
论文数:
引用数:
h-index:
机构:
钟万勰
.
中文信息学报,
2001,
(02)
:31
-37+44
[9]
一种改进的快速分词算法
[J].
陈桂林
论文数:
0
引用数:
0
h-index:
0
机构:
上海交通大学网络信息中心!上海,上海交通大学网络信息中心!上海,上海交通大学网络信息中心!上海,上海交通大学网络信息中心!上海
陈桂林
;
王永成
论文数:
0
引用数:
0
h-index:
0
机构:
上海交通大学网络信息中心!上海,上海交通大学网络信息中心!上海,上海交通大学网络信息中心!上海,上海交通大学网络信息中心!上海
王永成
;
论文数:
引用数:
h-index:
机构:
韩客松
;
论文数:
引用数:
h-index:
机构:
王刚
.
计算机研究与发展,
2000,
(04)
:418
-424
[10]
基于最长次长匹配的汉语自动分词
[J].
论文数:
引用数:
h-index:
机构:
黄德根
;
朱和合
论文数:
0
引用数:
0
h-index:
0
机构:
大连理工大学工程力学研究所!辽宁大连,大连理工大学计算机科学与工程系,辽宁大连,大连理工大学计算机科学与工程系!辽宁大连,大连理工大学计算机科学与工程系!辽宁大连,大连理工大学计算机科学与工程系!辽宁大连,大连理工大学工程力学研究所!辽
朱和合
;
王昆仑
论文数:
0
引用数:
0
h-index:
0
机构:
大连理工大学工程力学研究所!辽宁大连,大连理工大学计算机科学与工程系,辽宁大连,大连理工大学计算机科学与工程系!辽宁大连,大连理工大学计算机科学与工程系!辽宁大连,大连理工大学计算机科学与工程系!辽宁大连,大连理工大学工程力学研究所!辽
王昆仑
;
杨元生
论文数:
0
引用数:
0
h-index:
0
机构:
大连理工大学工程力学研究所!辽宁大连,大连理工大学计算机科学与工程系,辽宁大连,大连理工大学计算机科学与工程系!辽宁大连,大连理工大学计算机科学与工程系!辽宁大连,大连理工大学计算机科学与工程系!辽宁大连,大连理工大学工程力学研究所!辽
杨元生
;
论文数:
引用数:
h-index:
机构:
钟万勰
.
大连理工大学学报,
1999,
(06)
:831
-835
←
1
2
→