中文词法分析技术的研究与实现

被引:0
作者
张会鹏
机构
[1] 哈尔滨工业大学
关键词
中文分词; 词性标注; 动词细分类; 隐马尔科夫模型; 未登录词识别;
D O I
暂无
年度学位
2006
学位类型
硕士
导师
摘要
中文词法分析是中文信息处理中的一项基础性工作。词法分析结果的好坏将直接影响中文信息处理上层应用的效果。本文针对词法分析中的中文分词、词性标注和动词细分类进行了深入的研究并实现了一个实用化的词法分析系统IRLAS。通过权威的评测和实际应用表明,IRLAS是一个高精度、高质量的、高可靠性的词法分析系统。 众所周知,切分歧义和未登录词识别是中文分词中的两大难点。文本采用了基于词类的分词概率模型,此模型把词归为若干类别并且把这些类别纳入到一个统一的概率模型框架下。通过选择概率最大的切分路径可以消除掉大部分的切分歧义。对于未登录词识别,文本采用了基于角色标注的未登录词识别方法,这种方法能充分利用未登录词的上下文信息并把未登录词识别的问题转化为角色序列的标注问题。通过训练角色的隐马模型参数,再利用Viterbi算法即可标注出最优的角色序列,也即完成了未登录词的识别。 词性标注和动词细分类可以为上层应用提供更丰富的语法信息,例如句法分析可以利用这些词性信息进行句法关系的识别。词性标注是隐马尔科夫模型的一个典型应用,本文利用隐马尔科夫模型的方法进行词性标注并取得了较高的准确率。动词细分类和词性标注有些类似,它是在词性标注基础上对其中的动词进行更细致的类别标注。根据动词细分类自身的特点,本文提出了一种改进的隐马尔科夫模型的方法进行动词类别的自动划分,通过与最大熵的方法进行比较,证明这种方法十分有效。本文还通过把动词细分类嵌入到句法分析系统中,从而有效地提高了句法分析的识别精度。
引用
收藏
页数:77
共 7 条
[1]
基于层叠隐马模型的汉语词法分析 [J].
刘群 ;
张华平 ;
俞鸿魁 ;
程学旗 .
计算机研究与发展, 2004, (08) :1421-1429
[2]
基于N-最短路径方法的中文词语粗分模型 [J].
张华平 ;
刘群 .
中文信息学报, 2002, (05) :1-7
[3]
N-gram语言模型的数据平滑技术 [J].
徐志明 ;
王晓龙 ;
关毅 .
计算机应用研究, 1999, (07) :37-39+44
[4]
基于条件随机场的自动分词技术的研究 [D]. 
陈晴 .
东北大学,
2005
[5]
现代汉语词性细分类标注研究 [D]. 
段建勇 .
山西大学,
2004
[6]
中文自动分词系统的研究 [D]. 
朱珣 .
华中师范大学,
2004
[7]
在自然汉语中进行分词和词性标注 [D]. 
刘东旭 .
电子科技大学,
2003