基于条件随机场的自动分词技术的研究

被引:0
作者
陈晴
机构
[1] 东北大学
关键词
条件随机场; 自动分词; 自然语言理解; 有向图; 无向图; 隐马尔可夫模型; 最大熵马尔可夫模型; 参数估计;
D O I
暂无
年度学位
2005
学位类型
硕士
导师
摘要
随着科技的发展和海量信息的涌现,信息处理技术已经成为当今世界发展不可或缺的一部分,要在海量的信息中提取有用的知识,就必须要让机器“读懂”这些由人类语言所描述的信息,而词是最小的能够独立活动的有意义的语言成分。将词确定下来是理解自然语言的第一步,只有跨越了这一步,我们才有可能对信息进行更深入的处理,以至于让机器理解人类语言。本实验室对机器翻译和自然语言处理的研究,在很大的程度上都要依赖于如分词等序列标记和分割的技术,以便减少错误的蔓延,并进行深入的研究。 条件随机场是近年来提出的,用于标记和分割序列数据的条件概率模型,也是在给定输入节点条件下计算输出节点的条件概率的无向图模型。它不需要以隐马尔可夫模型为代表的“生成”模型那样的严格独立假设,并克服了最大熵马尔可夫模型和其他“非生成”模型所存在的标记偏置的问题。该模型可以非常容易的将输入序列中的任意特征或是语言本身所固有的特征加入到模型中,我们不仅可以将传统的HMM序列模型的转移特征和发射特征加入进来,而且也可以将一些其他的信息加入进来,比如构词规则,领域特征,词典信息等等。 本文系统的介绍了条件随机场的定义、模型结构、特征函数、参数估计及其训练方法等。并将条件随机场应用于汉语自动分词,得到了比以往用于序列标记和分割的模型更好的效果,从实验上验证了条件随机场在序列标记和分割方面的优势;并在不断添加特征的条件下应用条件随机场进行了大量的实验,在实验中,条件随机场表现出了非常优异的性能。
引用
收藏
页数:61
共 5 条
[1]
Combining Supervised and Unsupervised Lexical Knowledge Methods for Word Sense Disambiguation.[J].E. Agirre;G. Rigau;L. Padró;J. Atserias.Computers and the Humanities.2000, 1
[2]
MUC-7 Name Entity Task Definition..N. A. Chinchor;..1998,
[3]
Named Entity Recognition using and HMM-based Chunk Tagger..Andrei M; Marc M. and Claire G;.Proc. of EACL.1999,
[4]
Hybrid text chunking..GuoDong Zhou; Jian Su; and TongGuan Tey;..2000,
[5]
A Maximum Entropy Approach to Named Entity Recognition..Borthwick A;..1999,