基于规则的命名实体识别研究

被引:0
作者
周昆
机构
[1] 合肥工业大学
关键词
中文信息处理; 命名实体识别; 中文分词; 本体;
D O I
暂无
年度学位
2010
学位类型
硕士
导师
摘要
中文分词是自然语言处理的第一步。在实际应用中,分词受到诸多因素的制约,未登录词的切分就是影响分词正确率的重要因素之一。未登录词主要的形式包括人名,地名,机构名等命名实体。因此,将命名实体的识别融合到中文分词的过程中,对提高中文分词的准确率起着重要作用。另外,命名实体识别的研究对于信息抽取、信息检索、机器翻译、文本分类等应用系统的实现具有重要的理论意义和实践价值。 本文的主要研究内容如下: (1)提出了融合命名实体识别的中文分词模型,在分词的过程中同时进行命名实体的识别,减少了因为命名实体等未登录词的识别错误而引起的中文词法切分错误,从而提高了分词的准确率。 (2)基于本体构建中文人名知识库的层次分类体系,将中文人名领域的知识分成若干个层次,低层次的领域知识是高层次的基础,高层次的领域知识是低层次的概括和总结,有效提高了人名知识库的可维护性。 (3)构建命名实体识别的规则库,采用规则匹配的方法识别命名实体。识别系统具有自学习的能力,在识别命名实体的同时可以分析识别结果生成新的规则反馈给规则库,具有较好的命名实体识别的效果。
引用
收藏
页数:52
共 14 条
[1]
面向中文网络信息检索的自动分词系统设计与算法实现 [D]. 
张彬 .
华东师范大学,
2007
[2]
基于SVM的词频统计中文分词研究 [J].
朱小娟 ;
陈特放 .
微计算机信息, 2007, (30) :205-207
[3]
基于多知识源的中文词法分析系统 [J].
姜维 ;
王晓龙 ;
关毅 ;
赵健 .
计算机学报, 2007, (01) :137-145
[4]
现代汉语通用分词系统中歧义切分的实用技术 [J].
罗智勇 ;
宋柔 .
计算机研究与发展, 2006, (06) :1122-1128
[5]
基于大规模语料库的新词检测 [J].
崔世起 ;
刘群 ;
孟遥 ;
于浩 ;
西野文人 .
计算机研究与发展 , 2006, (05) :927-932
[6]
基于层叠隐马模型的汉语词法分析 [J].
刘群 ;
张华平 ;
俞鸿魁 ;
程学旗 .
计算机研究与发展, 2004, (08) :1421-1429
[7]
汉语自动分词研究展望 [J].
文庭孝 ;
邱均平 ;
侯经川 .
现代图书情报技术, 2004, (07) :6-10
[8]
Ontology研究综述 [J].
邓志鸿 ;
唐世渭 ;
张铭 ;
杨冬青 ;
陈捷 .
北京大学学报(自然科学版), 2002, (05) :730-738
[9]
汉语自动分词与内容分析法研究.[J].邱均平;文庭孝;周黎明;.情报学报.2005, 03
[10]
An algorithm that learns what's in a name [J].
Bikel, DM ;
Schwartz, R ;
Weischedel, RM .
MACHINE LEARNING, 1999, 34 (1-3) :211-231