领域本体术语的抽取方法研究

被引:11
作者
张雷瀚 [1 ]
吕学强 [1 ]
李卓 [1 ]
徐丽萍 [2 ]
机构
[1] 北京信息科技大学网络文化与数字传播北京市重点实验室
[2] 北京城市系统工程研究中心
基金
北京市自然科学基金;
关键词
本体构建; 术语抽取; 逆向词性规则; 参照语料; 术语领域度;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
领域术语是本体构建的基本要素,自动获取高质量的领域术语是构建领域本体的基础。本文提出一种多策略融合的领域术语抽取方法。分析领域术语的语法结构及统计特征,构造术语抽取的逆向词性规则和领域专用停用词表;利用PATTree术语抽取模型和C-value方法获取候选术语;借鉴TF-IDF及参照语料对比思想,从单个文档和领域文档集两个层面计算术语领域度,并依据术语领域度的大小筛选得到领域术语。在经济类语料上的实验结果显示:领域术语的top-100、top-500和top-1500准确率分别达到了94.00%、85.20%和78.47%,与baseline相比,分别提高5%、4.8%和6.2%。
引用
收藏
页码:167 / 174
页数:8
相关论文
共 9 条
[1]
基于CRFs的中文领域术语自动抽取研究.[A].王海雄;郭剑毅;余正涛;毛存礼;张朝胜;雷春雅;.第六届全国信息检索学术会议.2010,
[2]
基于改进C-value方法的中文术语抽取 [J].
胡阿沛 ;
张静 ;
刘俊丽 .
现代图书情报技术, 2013, (02) :24-29
[3]
基于多策略的领域本体术语抽取研究.[J].何琳;.情报学报.2012, 08
[4]
一种基于加权投票的术语自动识别方法 [J].
游宏梁 ;
张巍 ;
沈钧毅 ;
刘挺 .
中文信息学报, 2011, (03) :9-16
[5]
基于知识本体的术语定义(下) [J].
揭春雨 ;
冯志伟 .
术语标准化与信息技术, 2009, (03) :14-23
[6]
基于聚类方法对特定领域术语的自动筛选 [J].
李勇 .
计算机工程与科学, 2008, (02) :64-66+134
[7]
A corpus comparison approach for terminology extraction.[J].Teresa Mihwa Chung.Terminology. International Journal of Theoretical and Applied Issues in Specialized Communication.2003, 2
[8]
Text categorization with support vector machines.: How to represent texts in input space? [J].
Leopold, E ;
Kindermann, J .
MACHINE LEARNING, 2002, 46 (1-3) :423-444
[9]
Automatic recognition of multi-word terms: The C-value/NC-value method [J].
Frantzi K. ;
Ananiadou S. ;
Mima H. .
International Journal on Digital Libraries, 2000, 3 (2) :115-130