中文命名实体识别的研究

被引:0
作者
丁卓冶
机构
[1] 大连理工大学
关键词
自然语言处理; 命名实体识别; 支持向量机; 条件随机场;
D O I
暂无
年度学位
2008
学位类型
硕士
导师
摘要
中文命名实体识别是自然语言处理的基础任务,是机器翻译、信息检索、问答系统等技术的基础,研究并实现有效的中文命名实体识别方法是本文的主要研究内容。 本文主要采用基于机器学习的方法完成命名实体识别任务。 首先,通过分析中文人名、地名的特点,以抽取合适的特征;定义科学的特征模板,并建立了一种基于条件随机场(Conditional Random Fields,CRFs)的中文命名实体识别模型。通过对CRFs的识别结果进行分析,发现CRFs模型中给出的错误标记大都拥有较小的边缘概率,用边缘概率定位到CRFs模型中可能的错误标记,并分别引入了概率统计方法和边界模板的方法对这部分标记进行修正,以优化系统的识别效果。实验证明,这两种混合模型的识别效果明显好于单纯的CRFs方法。 另外,提出一种基于Max-Margin Markov Networks模型的地名识别方法。Max-MarginMarkov Networks模型将Max-Margin的思想应用于马尔可夫网络。它综合了支持向量机(Support Vector Machine,SVM)模型和无向图模型的优点。通过地名识别的实验证明,在相同的语料、特征和特征模板的条件下,基于Max-Margin Markov Networks模型的识别效果好于CRFs和SVM模型。 最后,提出了一种基于概率特征函数的CRFs模型。CRFs模型是目前最优秀的机器学习模型之一,它定义的特征函数全部是0、1二值形式的,导致丢失一些有用的概率信息。本文在定义特征函数时融入了概率信息,以强化模型的学习能力,然后基于概率特征函数构造条件随机场。通过命名实体识别的实验证明,在相同的条件下,基于概率特征函数的CRFs比传统的CRFs具有更好的机器学习能力。 本文的研究成果可应用于其它自然语言处理任务中。
引用
收藏
页数:70
共 12 条
[1]
中文专有名词识别的研究 [D]. 
毛婷婷 .
大连理工大学,
2006
[2]
中文文本自动分词和标注.[M].刘开瑛著;.商务印书馆.2000,
[3]
机器翻译原理.[M].赵铁军等编著;.哈尔滨工业大学出版社.2000,
[4]
最优化理论与方法.[M].袁亚湘;孙文瑜著;.科学出版社.1997,
[5]
边界模板和局部统计相结合的中国人名识别 [J].
李中国 ;
刘颖 .
中文信息学报, 2006, (05) :44-50
[6]
汉语介词短语的自动识别 [J].
干俊伟 ;
黄德根 .
中文信息学报, 2005, (04) :17-23
[7]
基于互信息的中文姓名识别方法 [J].
黄德根 ;
马玉霞 ;
杨元生 .
大连理工大学学报, 2004, (05) :744-748
[8]
基于决策树的汉语未登录词识别 [J].
秦文 ;
苑春法 .
中文信息学报, 2004, (01) :14-19
[9]
基于角色标注的中国人名自动识别研究 [J].
张华平 ;
刘群 .
计算机学报, 2004, (01) :85-91
[10]
基于统计的中文地名识别 [J].
黄德根 ;
岳广玲 ;
杨元生 .
中文信息学报, 2003, (02) :36-41