基于支持向量机的中文组织机构名识别

被引:0
作者
陈霄
机构
[1] 上海交通大学
关键词
中文机构名识别; 支持向量机; 主动学习;
D O I
暂无
年度学位
2007
学位类型
硕士
导师
摘要
中文组织机构名的识别是中文信息处理中的一个重要任务,也是命名实体识别(Named Entity Recognition)研究的重点之一。命名实体包括人名、地名、机构名、时间短语等,组织机构名是其中非常重要的一部分,其识别的难度也是所有命名实体中最大的。包括机构名在内的命名实体的识别是许多自然语言处理任务,如信息抽取、机器翻译、信息检索等的基础,具有十分重要的意义。 统计方法是自然语言处理中最重要的方法之一。在统计学习理论的基础上发展起来支持向量机是一种新的通用学习方法。基于结构风险最小化原则的支持向量机在许多研究问题中,特别是样本集有限的情况下,表现出了优于其它机器学习方法的性能。目前,支持向量机已经应用于自然语言处理的许多领域,如文本分类,浅层句法分析,专名识别等,都取得了不错的效果。 本文提出了一种支持向量机结合主动学习策略进行中文机构名识别的方法:用支持向量机对切分标注过语料中的中文机构名进行识别,并在样本选择和模型训练时,结合了主动学习的策略。我们在大规模的真实文本中对该方法进行了多组开放性测试实验,实验中我们比较了不同特征选择,以及不同的样本选择策略对结果的影响。实验的结果表明,基于支持向量机的方法取得了很好的结果:正确率,召回率和F值分别达到了81.68%,86.84%,84.18%。实验也表明主动学习的策略能有效地减少训练样本的数量,从而减少了人工标注成本。最终,我们在该方法的基础上实现了一个机构名识别的实验系统。
引用
收藏
页数:58
共 20 条
[1]
A tutorial on Support Vector Machines for pattern recognition [J].
Burges, CJC .
DATA MINING AND KNOWLEDGE DISCOVERY, 1998, 2 (02) :121-167
[2]
中文文本自动分词和标注.[M].刘开瑛著;.商务印书馆.2000,
[3]
计算语言学导论.[M].翁富良;王野翊著;.中国社会科学出版社.1998,
[4]
SVM与规则相结合的中文地名自动识别 [J].
李丽双 ;
黄德根 ;
陈春荣 ;
杨元生 .
中文信息学报, 2006, (05) :51-57
[5]
基于委员会投票选择方法的主动学习的研究 [J].
赵悦 ;
穆志纯 .
太原理工大学学报, 2006, (04) :469-472
[6]
基于混合模型的中文命名实体抽取系统 [J].
王睿 ;
张洁 ;
张由仪 ;
于禛 ;
姚天昉 .
清华大学学报(自然科学版), 2005, (自然科学版) :1908-1914
[7]
基于SVM的中文组块分析 [J].
李珩 ;
朱靖波 ;
姚天顺 .
中文信息学报, 2004, (02) :1-7
[8]
基于角色标注的中国人名自动识别研究 [J].
张华平 ;
刘群 .
计算机学报, 2004, (01) :85-91
[9]
基于统计的中文地名识别 [J].
黄德根 ;
岳广玲 ;
杨元生 .
中文信息学报, 2003, (02) :36-41
[10]
基于HMM的中国组织机构名自动识别 [J].
郑家恒 ;
张辉 .
计算机应用, 2002, (11) :1-2+25