术语定义抽取、聚类与术语识别研究

被引:0
作者
张榕
机构
[1] 北京语言大学
关键词
术语; 术语定义; 术语识别; 术语定义抽取; 术语定义的领域聚类;
D O I
暂无
年度学位
2006
学位类型
博士
导师
摘要
由于科技的进步,社会的发展,新概念、新事物不断涌现。这些新概念与新事物产生以后,必定要用一个术语来指称它,由此大量的术语融入语言词汇的集合之中。统计表明术语在语言词汇中所占的比例逐年增加,术语学的研究也越来越受到有关学者的重视。对这些术语进行深入系统的研究不但从语言学的角度上来说是必要的,而且从语言信息处理的角度来说,也具有实际的应用意义。 我们正处于一个网络飞速发展,信息激增的时代,如何从信息的海洋中高效地获取到需要的知识是一个亟待解决的问题。搜索引擎方便了人们的查询需求,但是针对查找术语释义这样一个特定的问题,搜索引擎却无法提供高效、便捷的查询服务。 在这样的背景下,本文提出了下述研究课题: 1.关于什么是术语的可操作性界定; 2.面向大规模文本的术语定义抽取方法; 3.术语定义的领域聚类方法: 4.术语定义抽取基础上的术语识别方法。 本文的研究以八千三百万字的涉及27个领域的包含328158条术语的术语数据库为术语专业语料,该数据库中的每条术语都有定义解释,同时以7年的人民日报为普通语料进行统计,在此基础上针对术语定义抽取、术语识别以及术语定义聚类进行考察。 本文的研究特色主要包括: 1.什么是术语的可操作性界定。从语言信息处理的角度出发,提出一种对于“术语”的界定:在某种程度上,术语就是被定义项,即术语是带定义性描述的词或词组。这种对术语的界定将术语与术语定义结合起来,将术语和普通词语区分开来,并且具有可操作性。 2.术语定义抽取方法。使用“规则”+“统计”的方法从真实文本中抽取出术语定义。通过考察术语定义用词与人民日报用词的不同,提出词语的“定义隶属度”和句子的“定义隶属度”的概念。由术语定义的匹配规则与排除规则提取候选定义,通过计算句子的定义
引用
收藏
页数:133
共 44 条
[1]
信息科学和信息技术术语概念体系研究 [D]. 
李芸 .
北京语言文化大学,
2003
[2]
从概念角度浅议专业术语与一般词汇意义 [J].
王志科 ;
周学恒 .
呼伦贝尔学院学报, 2005, (05) :15-16+8
[3]
一种快速高效的文本分类方法 [J].
石志伟 ;
刘涛 ;
吴功宜 .
计算机工程与应用, 2005, (29) :180-183
[4]
基于相似度的词聚类算法 [J].
袁里驰 ;
钟义信 .
微电子学与计算机, 2005, (08) :93-95
[5]
领域词汇自动获取的研究 [J].
凌祺 ;
樊孝忠 .
微机发展, 2005, (08) :148-150
[6]
基于多策略的专业领域术语抽取器的设计 [J].
杜波 ;
田怀凤 ;
王立 ;
陆汝占 .
计算机工程, 2005, (14) :159-160
[7]
基于知网的语义相关度计算 [J].
许云 ;
樊孝忠 ;
张锋 .
北京理工大学学报, 2005, (05) :411-414
[8]
基于互信息的中文术语抽取系统 [J].
张锋 ;
许云 ;
侯艳 ;
樊孝忠 .
计算机应用研究, 2005, (05) :72-73+77
[9]
汉语文本聚类及其算法设计 [J].
陈炯 ;
范卓华 ;
张虎 .
山西电子技术, 2005, (02) :29-30+45
[10]
一种文本聚类算法 [J].
李向军 ;
徐国华 ;
刘立平 .
西北大学学报(自然科学版), 2005, (02) :155-158