基于条件随机场的中文分词研究

被引:0
作者
姜锋
机构
[1] 大连理工大学
关键词
分词; 条件随机场; 全切分;
D O I
暂无
年度学位
2006
学位类型
硕士
导师
摘要
分词是中文自然语言处理的基本问题。很多自然语言处理任务都建立在分词的基础之上,分词的准确程度直接影响到一系列后续处理的正确性。但由于汉语自身的复杂性,分词问题一直是中文自然语言处理的难题。 条件随机场是一种无向图模型,它具有产生式模型和最大熵马尔可夫模型的优点。既可以利用任意上下文特征,并对这些特征进行训练;又可以通过折衷不同位置的不同特征值的方法获得全局最优的标记结果。 基于统计的中文分词按照分类单位划分,通常可分为基于汉字标注的分词和基于全切分图的分词两种方法。目前,条件随机场方法主要应用于基于汉字标注的分词问题研究,但这种方法不能有效地利用词汇信息。本文对基于条件随机场的中分分词理论和技术做了研究,并实现了一个基于全切分图的条件随机场分词训练和测试系统。由于汉语的词之间没有明显的边界标记,所以无法直接用条件随机场进行分词模型的训练和测试。本文使用构建起始词矩阵和结束词矩阵的方法,来辅助构建基于全切分图的条件随机场模型。本文使用机器学习方法训练基于全切分图的条件随机场模型。与汉字标注的分词方法不同,基于全切分图的分词方法可以更方便的利用词汇以及领域的信息。本文使用了单词的词形和词性信息等领域信息作为特征,构建条件随机场的分词模型。为了提高条件随机场训练系统的性能,本文采用一系列优化策略,提高训练速度。 本文使用人民日报一个月的语料作为训练数据,使用全切分图的方法构建条件随机场模型,分词结果的正确率为0.967。实验表明,基于条件随机场的分词方法,是一种可行的分词手段。
引用
收藏
页数:62
共 19 条
[1]
基于层叠隐马模型的汉语词法分析 [J].
刘群 ;
张华平 ;
俞鸿魁 ;
程学旗 .
计算机研究与发展, 2004, (08) :1421-1429
[2]
一种能够检测所有交叉歧义的汉语分词算法 [J].
王显芳 ;
杜利民 .
电子学报, 2004, (01) :50-54
[3]
基于角色标注的中国人名自动识别研究 [J].
张华平 ;
刘群 .
计算机学报, 2004, (01) :85-91
[4]
基于汉语二字应成词的歧义字段切分方法 [J].
郑德权 ;
于凤 ;
王开涛 ;
赵铁军 .
计算机工程与应用, 2003, (01) :17-18+26
[5]
基于N-最短路径方法的中文词语粗分模型 [J].
张华平 ;
刘群 .
中文信息学报, 2002, (05) :1-7
[6]
基于EM算法的汉语自动分词方法 [J].
李家福 ;
张亚非 .
情报学报, 2002, (03) :269-272
[7]
演化算法在中文自动分词中的应用 [J].
何炎祥 ;
冯夏根 ;
周水庚 .
计算机工程, 2002, (05) :80-82
[8]
基于统计方法的中文姓名识别 [J].
黄德根 ;
杨元生 ;
王省 ;
张艳丽 ;
钟万勰 .
中文信息学报, 2001, (02) :31-37+44
[9]
一种改进的快速分词算法 [J].
陈桂林 ;
王永成 ;
韩客松 ;
王刚 .
计算机研究与发展, 2000, (04) :418-424
[10]
基于最长次长匹配的汉语自动分词 [J].
黄德根 ;
朱和合 ;
王昆仑 ;
杨元生 ;
钟万勰 .
大连理工大学学报, 1999, (06) :831-835