学术探索
学术期刊
学术作者
新闻热点
数据分析
智能评审
中文信息处理中命名实体识别问题的研究
被引:0
作者
:
朱江涛
论文数:
0
引用数:
0
h-index:
0
机构:
沈阳航空工业学院
沈阳航空工业学院
朱江涛
机构
:
[1]
沈阳航空工业学院
关键词
:
中文信息处理;
词法分析;
分词;
命名实体识别;
隐马尔可夫模型;
最大熵模型;
篇章级命名实体识别;
D O I
:
暂无
年度学位
:
2006
学位类型
:
硕士
导师
:
蔡东风;
摘要
:
命名实体识别是自然语言信息处理的一项基础工作。命名实体识别的研究,对自然语言理解,信息检索和信息抽取具有重大的意义。国际上,很早就开始了命名实体识别技术的研究并取得了不错的成果。但是,由于中文本身的内在特点,使得命名实体识别问题成为中文信息处理中的一项艰巨的任务。本文从以下几个方面对中文命名实体识别问题进行了研究和探讨。 首先,提出了改进的隐马尔可夫模型并应用到命名实体识别当中。隐马尔可夫模型是一种简单有效的统计学习方法,然而,在命名实体识别问题中面临一定的问题。因此,本文在分析中文命名实体特征基础上,提出了一种基于改进的隐马尔可夫模型方法,并应用到命名实体识别当中。该方法建立的命名实体与上下文之间的直接联系,相对通常隐马尔可夫模型识别性能显著提高。 其次,将最大熵模型应到组织机构名的识别当中。组织机构名是命名实体识别任务中难度最大的任务,本文详细分析了组织机构名构成特点,提出了一种利用最大熵模型识别组织机构名的新方法。在最大熵模型的特征选择过程中,本文将词性、词性、语义和人类知识等多层特征信息,加入到组织机构名识别当中,取得了不错的效果。 再次,本文提出了一种基于启发式信息修正分词,以减少切分错误来提高命名实体识别性能的新策略,并以姓名识别为例进行了具体的实验。在一般的命名实体识别系统中,命名实体识别在分词之后进行,切分结果的错误就会蔓延到命名实体识别当中。本文分析分词、词性标注和命名实体识别之间关系,利用互信息和姓氏作为启发式信息探测姓名,在候选姓名局部上下文进行全切分,最后用隐马尔可夫模型选择最优标注,从而完成姓名识别的新方法。该方法将分词、词性标注与命名实体识别结合到一起,从而减少了分词对命名实体识别的影响,提高姓名识别的整体性能系统。 最后,本文提出了基于篇章的命名实体识别方法。在中文信息处理中,信息检索,信息抽取,自动文摘等研究内容本身就是篇章文本的信息处理。在这些任 务中,篇章级的上下文信息对命名实体识别具有重要的意义。本文将分词统计与串频统计相结合提取候选篇章中命名实体,利用上下文信息,实现了基于篇章的命名实体识别。实验表明:篇章上下文信息可以有效地改进对命名实体识别性能。
引用
收藏
页数:83
共 22 条
[1]
用支持向量机进行中文地名识别的研究
[J].
论文数:
引用数:
h-index:
机构:
李丽双
;
论文数:
引用数:
h-index:
机构:
黄德根
;
陈春荣
论文数:
0
引用数:
0
h-index:
0
机构:
大连理工大学计算机科学与工程系,大连理工大学计算机科学与工程系,大连理工大学计算机科学与工程系,大连理工大学计算机科学与工程系辽宁大连,辽宁大连,辽宁大连,辽宁大连
陈春荣
;
论文数:
引用数:
h-index:
机构:
杨元生
.
小型微型计算机系统,
2005,
(08)
:1416
-1419
[2]
一种改进的基于记忆的自适应汉语语言模型
[J].
张俊林
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院软件研究所系统软件与中文信息中心,中国科学院软件研究所系统软件与中文信息中心,中国科学院软件研究所系统软件与中文信息中心北京,北京,北京
张俊林
;
论文数:
引用数:
h-index:
机构:
孙乐
;
孙玉芳
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院软件研究所系统软件与中文信息中心,中国科学院软件研究所系统软件与中文信息中心,中国科学院软件研究所系统软件与中文信息中心北京,北京,北京
孙玉芳
.
中文信息学报,
2005,
(01)
:8
-13
[3]
结合决策树方法的中文姓名识别
[J].
论文数:
引用数:
h-index:
机构:
王振华
;
孔祥龙
论文数:
0
引用数:
0
h-index:
0
机构:
上海交通大学计算机科学与工程系,上海交通大学计算机科学与工程系,上海交通大学计算机科学与工程系,富士施乐公司研究本部上海,上海,上海,日本
孔祥龙
;
论文数:
引用数:
h-index:
机构:
陆汝占
;
刘绍明
论文数:
0
引用数:
0
h-index:
0
机构:
上海交通大学计算机科学与工程系,上海交通大学计算机科学与工程系,上海交通大学计算机科学与工程系,富士施乐公司研究本部上海,上海,上海,日本
刘绍明
.
中文信息学报,
2004,
(06)
:10
-15
[4]
基于互信息的中文姓名识别方法
[J].
论文数:
引用数:
h-index:
机构:
黄德根
;
马玉霞
论文数:
0
引用数:
0
h-index:
0
机构:
大连理工大学计算机科学与工程系,大连理工大学计算机科学与工程系,大连理工大学计算机科学与工程系辽宁大连 ,辽宁大连 ,辽宁大连
马玉霞
;
论文数:
引用数:
h-index:
机构:
杨元生
.
大连理工大学学报,
2004,
(05)
:744
-748
[5]
基于决策树的汉语未登录词识别
[J].
秦文
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机系,清华大学计算机系智能技术与系统国家重点实验室,北京,智能技术与系统国家重点实验室,北京
秦文
;
论文数:
引用数:
h-index:
机构:
苑春法
.
中文信息学报,
2004,
(01)
:14
-19
[6]
基于统计的中文地名识别
[J].
黄德根
论文数:
0
引用数:
0
h-index:
0
机构:
大连理工大学计算机科学与工程系
黄德根
;
岳广玲
论文数:
0
引用数:
0
h-index:
0
机构:
大连理工大学计算机科学与工程系
岳广玲
;
杨元生
论文数:
0
引用数:
0
h-index:
0
机构:
大连理工大学计算机科学与工程系
杨元生
.
中文信息学报,
2003,
(02)
:36
-41
[7]
基于HMM的中国组织机构名自动识别
[J].
论文数:
引用数:
h-index:
机构:
郑家恒
;
张辉
论文数:
0
引用数:
0
h-index:
0
机构:
山西大学计算机科学系,山西大学计算机科学系山西太原,山西太原
张辉
.
计算机应用,
2002,
(11)
:1
-2+25
[8]
基于N-最短路径方法的中文词语粗分模型
[J].
张华平
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所软件实验室
张华平
;
刘群
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所软件实验室
刘群
.
中文信息学报,
2002,
(05)
:1
-7
[9]
中文金融新闻中公司名的识别
[J].
王宁
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机科学与技术系
王宁
;
葛瑞芳
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机科学与技术系
葛瑞芳
;
论文数:
引用数:
h-index:
机构:
苑春法
;
黄锦辉
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机科学与技术系
黄锦辉
;
论文数:
引用数:
h-index:
机构:
李文捷
.
中文信息学报,
2002,
(02)
:1
-6
[10]
基于统计方法的中文姓名识别
[J].
论文数:
引用数:
h-index:
机构:
黄德根
;
杨元生
论文数:
0
引用数:
0
h-index:
0
机构:
大连理工大学计算机科学与工程系!大连大连理工大学工程力学研究所大连,大连理工大学计算机科学与工程系!大连,大连理工大学计算机科学与工程系!大连,大连理工大学计算机科学与工程系!大连,大连理工大学工程力学研究所!大连
杨元生
;
王省
论文数:
0
引用数:
0
h-index:
0
机构:
大连理工大学计算机科学与工程系!大连大连理工大学工程力学研究所大连,大连理工大学计算机科学与工程系!大连,大连理工大学计算机科学与工程系!大连,大连理工大学计算机科学与工程系!大连,大连理工大学工程力学研究所!大连
王省
;
张艳丽
论文数:
0
引用数:
0
h-index:
0
机构:
大连理工大学计算机科学与工程系!大连大连理工大学工程力学研究所大连,大连理工大学计算机科学与工程系!大连,大连理工大学计算机科学与工程系!大连,大连理工大学计算机科学与工程系!大连,大连理工大学工程力学研究所!大连
张艳丽
;
论文数:
引用数:
h-index:
机构:
钟万勰
.
中文信息学报,
2001,
(02)
:31
-37+44
←
1
2
3
→
共 22 条
[1]
用支持向量机进行中文地名识别的研究
[J].
论文数:
引用数:
h-index:
机构:
李丽双
;
论文数:
引用数:
h-index:
机构:
黄德根
;
陈春荣
论文数:
0
引用数:
0
h-index:
0
机构:
大连理工大学计算机科学与工程系,大连理工大学计算机科学与工程系,大连理工大学计算机科学与工程系,大连理工大学计算机科学与工程系辽宁大连,辽宁大连,辽宁大连,辽宁大连
陈春荣
;
论文数:
引用数:
h-index:
机构:
杨元生
.
小型微型计算机系统,
2005,
(08)
:1416
-1419
[2]
一种改进的基于记忆的自适应汉语语言模型
[J].
张俊林
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院软件研究所系统软件与中文信息中心,中国科学院软件研究所系统软件与中文信息中心,中国科学院软件研究所系统软件与中文信息中心北京,北京,北京
张俊林
;
论文数:
引用数:
h-index:
机构:
孙乐
;
孙玉芳
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院软件研究所系统软件与中文信息中心,中国科学院软件研究所系统软件与中文信息中心,中国科学院软件研究所系统软件与中文信息中心北京,北京,北京
孙玉芳
.
中文信息学报,
2005,
(01)
:8
-13
[3]
结合决策树方法的中文姓名识别
[J].
论文数:
引用数:
h-index:
机构:
王振华
;
孔祥龙
论文数:
0
引用数:
0
h-index:
0
机构:
上海交通大学计算机科学与工程系,上海交通大学计算机科学与工程系,上海交通大学计算机科学与工程系,富士施乐公司研究本部上海,上海,上海,日本
孔祥龙
;
论文数:
引用数:
h-index:
机构:
陆汝占
;
刘绍明
论文数:
0
引用数:
0
h-index:
0
机构:
上海交通大学计算机科学与工程系,上海交通大学计算机科学与工程系,上海交通大学计算机科学与工程系,富士施乐公司研究本部上海,上海,上海,日本
刘绍明
.
中文信息学报,
2004,
(06)
:10
-15
[4]
基于互信息的中文姓名识别方法
[J].
论文数:
引用数:
h-index:
机构:
黄德根
;
马玉霞
论文数:
0
引用数:
0
h-index:
0
机构:
大连理工大学计算机科学与工程系,大连理工大学计算机科学与工程系,大连理工大学计算机科学与工程系辽宁大连 ,辽宁大连 ,辽宁大连
马玉霞
;
论文数:
引用数:
h-index:
机构:
杨元生
.
大连理工大学学报,
2004,
(05)
:744
-748
[5]
基于决策树的汉语未登录词识别
[J].
秦文
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机系,清华大学计算机系智能技术与系统国家重点实验室,北京,智能技术与系统国家重点实验室,北京
秦文
;
论文数:
引用数:
h-index:
机构:
苑春法
.
中文信息学报,
2004,
(01)
:14
-19
[6]
基于统计的中文地名识别
[J].
黄德根
论文数:
0
引用数:
0
h-index:
0
机构:
大连理工大学计算机科学与工程系
黄德根
;
岳广玲
论文数:
0
引用数:
0
h-index:
0
机构:
大连理工大学计算机科学与工程系
岳广玲
;
杨元生
论文数:
0
引用数:
0
h-index:
0
机构:
大连理工大学计算机科学与工程系
杨元生
.
中文信息学报,
2003,
(02)
:36
-41
[7]
基于HMM的中国组织机构名自动识别
[J].
论文数:
引用数:
h-index:
机构:
郑家恒
;
张辉
论文数:
0
引用数:
0
h-index:
0
机构:
山西大学计算机科学系,山西大学计算机科学系山西太原,山西太原
张辉
.
计算机应用,
2002,
(11)
:1
-2+25
[8]
基于N-最短路径方法的中文词语粗分模型
[J].
张华平
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所软件实验室
张华平
;
刘群
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所软件实验室
刘群
.
中文信息学报,
2002,
(05)
:1
-7
[9]
中文金融新闻中公司名的识别
[J].
王宁
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机科学与技术系
王宁
;
葛瑞芳
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机科学与技术系
葛瑞芳
;
论文数:
引用数:
h-index:
机构:
苑春法
;
黄锦辉
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机科学与技术系
黄锦辉
;
论文数:
引用数:
h-index:
机构:
李文捷
.
中文信息学报,
2002,
(02)
:1
-6
[10]
基于统计方法的中文姓名识别
[J].
论文数:
引用数:
h-index:
机构:
黄德根
;
杨元生
论文数:
0
引用数:
0
h-index:
0
机构:
大连理工大学计算机科学与工程系!大连大连理工大学工程力学研究所大连,大连理工大学计算机科学与工程系!大连,大连理工大学计算机科学与工程系!大连,大连理工大学计算机科学与工程系!大连,大连理工大学工程力学研究所!大连
杨元生
;
王省
论文数:
0
引用数:
0
h-index:
0
机构:
大连理工大学计算机科学与工程系!大连大连理工大学工程力学研究所大连,大连理工大学计算机科学与工程系!大连,大连理工大学计算机科学与工程系!大连,大连理工大学计算机科学与工程系!大连,大连理工大学工程力学研究所!大连
王省
;
张艳丽
论文数:
0
引用数:
0
h-index:
0
机构:
大连理工大学计算机科学与工程系!大连大连理工大学工程力学研究所大连,大连理工大学计算机科学与工程系!大连,大连理工大学计算机科学与工程系!大连,大连理工大学计算机科学与工程系!大连,大连理工大学工程力学研究所!大连
张艳丽
;
论文数:
引用数:
h-index:
机构:
钟万勰
.
中文信息学报,
2001,
(02)
:31
-37+44
←
1
2
3
→